Fugu-MT 論文翻訳(概要): Quantifying Reproducibility in NLP and ML

論文の概要: Quantifying Reproducibility in NLP and ML

arxiv url: http://arxiv.org/abs/2109.01211v1
Date: Thu, 2 Sep 2021 21:00:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-06 23:09:32.971777
Title: Quantifying Reproducibility in NLP and ML
Title（参考訳）: NLPとMLにおける再現性の定量化
Authors: Anya Belz
Abstract要約: 再現性は近年、NLPとMLで激しく議論されているトピックとなっている。一般的に受け入れられている評価方法が存在しないことは言うまでもなく、それを定量化する方法がこれまで現れてきた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reproducibility has become an intensely debated topic in NLP and ML over recent years, but no commonly accepted way of assessing reproducibility, let alone quantifying it, has so far emerged. The assumption has been that wider scientific reproducibility terminology and definitions are not applicable to NLP/ML, with the result that many different terms and definitions have been proposed, some diametrically opposed. In this paper, we test this assumption, by taking the standard terminology and definitions from metrology and applying them directly to NLP/ML. We find that we are able to straightforwardly derive a practical framework for assessing reproducibility which has the desirable property of yielding a quantified degree of reproducibility that is comparable across different reproduction studies.
Abstract（参考訳）: 近年、NLPやMLでは再現性に関する議論が盛んに行われているが、再現性を評価する方法が一般に受け入れられていない。科学的な再現可能性の用語や定義はNLP/MLには適用できないという仮定があり、結果として多くの異なる用語や定義が提案された。本稿では,標準用語と定義をメタロロジーから取り出して,NLP/MLに直接適用することで,この仮定をテストする。我々は,再現性を評価するための実践的な枠組みを,異なる再現性研究に匹敵する定量的な再現性が得られるという望ましい性質を,直接的に導出できることを見出した。

関連論文リスト

On Reference (In-)Determinacy in Natural Language Inference [62.904689974282334]
我々は、自然言語推論(NLI)タスクにおける基準決定性(RD)仮定を再考する。我々は、現在のNLIモデルは、入力前提と仮説が異なるコンテキストを参照できる事実検証のような下流アプリケーションでは失敗するのを観察する。 NLI例における参照曖昧性を特定するための診断ベンチマークであるRefNLIを紹介する。
論文参考訳（メタデータ） (2025-02-09T06:58:13Z)
Fairness Definitions in Language Models Explained [2.443957114877221]
言語モデル (LM) は様々な自然言語処理 (NLP) タスクにおいて例外的な性能を示した。これらの進歩にもかかわらず、LMは性別や人種などのセンシティブな属性に関連する社会的バイアスを継承し、増幅することができる。本稿では,LM に適用されるフェアネスの定義を明らかにするための体系的な調査を提案する。
論文参考訳（メタデータ） (2024-07-26T01:21:25Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文参考訳（メタデータ） (2024-05-30T12:42:05Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
Language models are not naysayers: An analysis of language models on negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。 LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文参考訳（メタデータ） (2023-06-14T01:16:37Z)
Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-05-24T11:53:29Z)
Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文参考訳（メタデータ） (2023-05-02T17:46:12Z)
Quantified Reproducibility Assessment of NLP Results [5.181381829976355]
本稿では,メタロロジーの概念と定義に基づいて量化アセスメント(QRA)を実行する手法について述べる。我々は18のシステムと評価尺度の組み合わせでQRAを試験し、それぞれに元の結果と1から7の再生結果が得られた。提案したQRA法は, 再現性スコアを再現性スコアと同等に生成し, 再現性スコアと再現性スコアを比較検討した。
論文参考訳（メタデータ） (2022-04-12T17:22:46Z)
A Systematic Review of Reproducibility Research in Natural Language Processing [3.0039296468567236]
過去数年間、この地域では様々な新しいイニシアチブやイベント、活発な研究が行われてきた。フィールドは、どのように定義、測定、対処すべきかについての合意に達するにはほど遠いです。
論文参考訳（メタデータ） (2021-03-14T13:53:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。