論文の概要: Using Fisher's Exact Test to Evaluate Association Measures for N-grams
- arxiv url: http://arxiv.org/abs/2104.14209v1
- Date: Thu, 29 Apr 2021 08:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 20:57:27.517263
- Title: Using Fisher's Exact Test to Evaluate Association Measures for N-grams
- Title(参考訳): N-gramsのアソシエーション評価のためのフィッシャーのエクササイズテスト
- Authors: Yves Bestgen
- Abstract要約: 我々は,400万単語のコーパスを解析するために,フィッシャーの厳密なテストの延長を用いて2語以上のシーケンスを解析した。
結果は、予想通りsimple-llは非常に効果的であることを示している。
MI3は、他の仮説テストベースの測定よりも効率的で、3グラムの単純なllにほぼ等しいパフォーマンスレベルに達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To determine whether some often-used lexical association measures assign high
scores to n-grams that chance could have produced as frequently as observed, we
used an extension of Fisher's exact test to sequences longer than two words to
analyse a corpus of four million words. The results, based on the
precision-recall curve and a new index called chance-corrected average
precision, show that, as expected, simple-ll is extremely effective. They also
show, however, that MI3 is more efficient than the other hypothesis tests-based
measures and even reaches a performance level almost equal to simple-ll for
3-grams. It is additionally observed that some measures are more efficient for
3-grams than for 2-grams, while others stagnate.
- Abstract(参考訳): 確率が観測されるn-gramに対して高いスコアを割り当てる頻度の高い語彙連想法があるかどうかを判断するために、フィッシャーの正確なテストを2語以上のシーケンスに拡張し、400万単語のコーパスを分析した。
その結果, 誤差補正平均精度という新しい指標と高精度リコール曲線に基づいて, 期待通り, 単純llが極めて有効であることが示唆された。
しかし、MI3は他の仮説テストベース尺度よりも効率的であり、3グラムの単純なllにほぼ等しい性能レベルに達することも示している。
さらに、2グラムよりも3グラムの方が効率的であるものもあれば、停滞するものもある。
関連論文リスト
- Resultant: Incremental Effectiveness on Likelihood for Unsupervised Out-of-Distribution Detection [63.93728560200819]
unsupervised out-of-distribution (U-OOD) は、未表示のin-distriion(ID)データのみに基づいて訓練された検出器でデータサンプルを識別することである。
近年の研究は、DGMに基づく様々な検出器を開発し、可能性を超えて移動している。
本研究では,各方向,特にポストホック前とデータセットエントロピー・ミューチュアルキャリブレーションの2つの手法を適用した。
実験の結果、結果が新しい最先端のU-OOD検出器になる可能性が示された。
論文 参考訳(メタデータ) (2024-09-05T02:58:13Z) - Less is More: One-shot Subgraph Reasoning on Large-scale Knowledge Graphs [49.547988001231424]
効率的かつ適応的な予測を実現するために,ワンショットサブグラフリンク予測を提案する。
設計原理は、KG全体に直接作用する代わりに、予測手順を2つのステップに分離する。
5つの大規模ベンチマークにおいて,効率の向上と性能の向上を実現している。
論文 参考訳(メタデータ) (2024-03-15T12:00:12Z) - A Positive-Unlabeled Metric Learning Framework for Document-Level
Relation Extraction with Incomplete Labeling [6.545730317972688]
文書レベルの関係抽出(RE)の目的は、複数の文にまたがるエンティティ間の関係を特定することである。
正の増進と正の混合による正の未ラベルメトリック学習フレームワーク(P3M)を提案する。
P3Mは文書レベルREのF1スコアを、不完全ラベル付きで約4-10ポイント改善する。
論文 参考訳(メタデータ) (2023-06-26T16:05:59Z) - XC: Exploring Quantitative Use Cases for Explanations in 3D Object
Detection [10.47625686392663]
本稿では,下流タスクに使用できる,説明集中度(XC)スコア(Explanation concentration)のセットを提案する。
XCスコアは、検出された物体の境界内での属性の濃度を定量化する。
KITおよびデータセットにおける真正(TP)および偽正(FP)検出対象を識別するタスクにより,XCスコアの有効性を評価する。
論文 参考訳(メタデータ) (2022-10-20T21:02:55Z) - No Pairs Left Behind: Improving Metric Learning with Regularized Triplet
Objective [19.32706951298244]
サンプルマイニングやオーバーヘッドコストを伴わずにメートル法学習を改善する三重項目的関数の新たな定式化を提案する。
提案手法は,従来の3重項対象の定式化によって改善されていることを示す。
論文 参考訳(メタデータ) (2022-10-18T00:56:01Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Lower bounds for learning quantum states with single-copy measurements [3.2590610391507444]
量子トモグラフィーとシャドウトモグラフィーの問題点を,未知の$d$次元状態の個々のコピーを用いて測定した。
特に、この手法は、その複雑さの観点から、フォークロアのパウリ・トモグラフィー(Pauli tomography)アルゴリズムの最適性を厳格に確立する。
論文 参考訳(メタデータ) (2022-07-29T02:26:08Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Efficient Data-Dependent Learnability [8.766022970635898]
予測正規化最大可能性(pNML)アプローチは、最近、バッチ学習問題に対する min-max 最適解として提案されている。
ニューラルネットワークに適用すると、この近似が分散外例を効果的に検出できることが示される。
論文 参考訳(メタデータ) (2020-11-20T10:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。