論文の概要: Quantifying Reproducibility in NLP and ML
- arxiv url: http://arxiv.org/abs/2109.01211v1
- Date: Thu, 2 Sep 2021 21:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 23:09:32.971777
- Title: Quantifying Reproducibility in NLP and ML
- Title(参考訳): NLPとMLにおける再現性の定量化
- Authors: Anya Belz
- Abstract要約: 再現性は近年、NLPとMLで激しく議論されているトピックとなっている。
一般的に受け入れられている評価方法が存在しないことは言うまでもなく、それを定量化する方法がこれまで現れてきた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reproducibility has become an intensely debated topic in NLP and ML over
recent years, but no commonly accepted way of assessing reproducibility, let
alone quantifying it, has so far emerged. The assumption has been that wider
scientific reproducibility terminology and definitions are not applicable to
NLP/ML, with the result that many different terms and definitions have been
proposed, some diametrically opposed. In this paper, we test this assumption,
by taking the standard terminology and definitions from metrology and applying
them directly to NLP/ML. We find that we are able to straightforwardly derive a
practical framework for assessing reproducibility which has the desirable
property of yielding a quantified degree of reproducibility that is comparable
across different reproduction studies.
- Abstract(参考訳): 近年、NLPやMLでは再現性に関する議論が盛んに行われているが、再現性を評価する方法が一般に受け入れられていない。
科学的な再現可能性の用語や定義はNLP/MLには適用できないという仮定があり、結果として多くの異なる用語や定義が提案された。
本稿では,標準用語と定義をメタロロジーから取り出して,NLP/MLに直接適用することで,この仮定をテストする。
我々は,再現性を評価するための実践的な枠組みを,異なる再現性研究に匹敵する定量的な再現性が得られるという望ましい性質を,直接的に導出できることを見出した。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language
Inference and Claim Extraction [92.2477303232719]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Uncertainty Decomposition and Quantification for In-Context Learning of
Large Language Models [54.18411645870683]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Mind your Language (Model): Fact-Checking LLMs and their Role in NLP
Research and Practice [91.20332726935992]
本稿では, LLM の定義に寄与し, それらの機能に関する仮定をいくつか説明し, それらに対する既存の証拠を概説する。
我々は今後の研究の方向性とフレーミングについて提案する。
論文 参考訳(メタデータ) (2023-08-14T13:00:53Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Quantified Reproducibility Assessment of NLP Results [5.181381829976355]
本稿では,メタロロジーの概念と定義に基づいて量化アセスメント(QRA)を実行する手法について述べる。
我々は18のシステムと評価尺度の組み合わせでQRAを試験し、それぞれに元の結果と1から7の再生結果が得られた。
提案したQRA法は, 再現性スコアを再現性スコアと同等に生成し, 再現性スコアと再現性スコアを比較検討した。
論文 参考訳(メタデータ) (2022-04-12T17:22:46Z) - A Systematic Review of Reproducibility Research in Natural Language
Processing [3.0039296468567236]
過去数年間、この地域では様々な新しいイニシアチブやイベント、活発な研究が行われてきた。
フィールドは、どのように定義、測定、対処すべきかについての合意に達するにはほど遠いです。
論文 参考訳(メタデータ) (2021-03-14T13:53:05Z) - Understanding Interpretability by generalized distillation in Supervised
Classification [3.5473853445215897]
最近の解釈戦略は、複雑な機械学習モデルの根底にある決定メカニズムの人間の理解に焦点を当てている。
本稿では,他のMLモデルと相対的に定義される解釈・蒸留式を提案する。
MNIST、Fashion-MNIST、Stanford40データセットに関する提案フレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-12-05T17:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。