論文の概要: QRA++: Quantified Reproducibility Assessment for Common Types of Results in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2505.17043v1
- Date: Tue, 13 May 2025 13:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.391528
- Title: QRA++: Quantified Reproducibility Assessment for Common Types of Results in Natural Language Processing
- Title(参考訳): QRA++:自然言語処理における共通型の再現性評価
- Authors: Anya Belz,
- Abstract要約: QRA++は3段階の粒度で連続的な評価の度合いを生成する定量的な評価手法である。
比較実験の3つの例にQRA++を適用して説明する。
- 参考スコア(独自算出の注目度): 6.653947064461629
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reproduction studies reported in NLP provide individual data points which in combination indicate worryingly low levels of reproducibility in the field. Because each reproduction study reports quantitative conclusions based on its own, often not explicitly stated, criteria for reproduction success/failure, the conclusions drawn are hard to interpret, compare, and learn from. In this paper, we present QRA++, a quantitative approach to reproducibility assessment that (i) produces continuous-valued degree of reproducibility assessments at three levels of granularity; (ii) utilises reproducibility measures that are directly comparable across different studies; and (iii) grounds expectations about degree of reproducibility in degree of similarity between experiments. QRA++ enables more informative reproducibility assessments to be conducted, and conclusions to be drawn about what causes reproducibility to be better/poorer. We illustrate this by applying QRA++ to three example sets of comparable experiments, revealing clear evidence that degree of reproducibility depends on similarity of experiment properties, but also system type and evaluation method.
- Abstract(参考訳): NLPで報告された再現性の研究は、個々のデータポイントを提供する。
それぞれの再現研究は、しばしば明確には述べられず、複製の成功/失敗の基準に基づいて定量的な結論を報告しているので、得られた結論は解釈し、比較し、そこから学ぶことは困難である。
本稿では,再現性評価のための定量的アプローチであるQRA++を提案する。
一 再現性の評価を三段階の粒度で連続的に評価すること。
二 異なる研究にあつて直接に匹敵する再現性対策を利用すること。
三 実験の類似度における再現可能性の程度に関する期待を根拠とする。
QRA++は、より情報的な再現性の評価を可能にする。
比較実験の3つの例にQRA++を適用し、再現性の度合いが実験特性の類似性に依存することを示すとともに、システムタイプと評価方法にも依存することを示す。
関連論文リスト
- MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [128.2992631982687]
本研究では,事前試験の結果に基づいて仮説を優先順位付けすることを目的とした,実験誘導ランキングの課題について紹介する。
本稿では,3つのドメインインフォームド仮定に基づいて,仮説性能を既知の基底的真理仮説に類似した関数としてモデル化するシミュレータを提案する。
実験結果を用いて,124の化学仮説のデータセットをキュレートし,シミュレーションの有効性を検証した。
論文 参考訳(メタデータ) (2025-05-23T13:24:50Z) - Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。
我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。
モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文 参考訳(メタデータ) (2025-02-07T10:01:32Z) - Can citations tell us about a paper's reproducibility? A case study of machine learning papers [3.5120846057971065]
リソースの制約やドキュメントの不十分さは、レプリケーションの実行を特に困難にします。
本稿では,機械学習の再現性問題に関わる論文の引用文脈に適用した感情分析フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T03:29:11Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - A reproducible experimental survey on biomedical sentence similarity: a
string-based method sets the state of the art [0.0]
本報告では,生物医学的文章類似性に関する再現可能な実験結果として,最大かつ初めて紹介する。
本研究の目的は,問題の現状を解明し,現状の手法の評価を未然に防ぐことにある。
実験の結果,前処理段階と NER ツールの選択が文類似性手法の性能に大きく影響していることが確認された。
論文 参考訳(メタデータ) (2022-05-18T06:20:42Z) - Quantified Reproducibility Assessment of NLP Results [5.181381829976355]
本稿では,メタロロジーの概念と定義に基づいて量化アセスメント(QRA)を実行する手法について述べる。
我々は18のシステムと評価尺度の組み合わせでQRAを試験し、それぞれに元の結果と1から7の再生結果が得られた。
提案したQRA法は, 再現性スコアを再現性スコアと同等に生成し, 再現性スコアと再現性スコアを比較検討した。
論文 参考訳(メタデータ) (2022-04-12T17:22:46Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。