論文の概要: ReproHum #0087-01: Human Evaluation Reproduction Report for Generating Fact Checking Explanations
- arxiv url: http://arxiv.org/abs/2404.17481v1
- Date: Fri, 26 Apr 2024 15:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:45:10.476155
- Title: ReproHum #0087-01: Human Evaluation Reproduction Report for Generating Fact Checking Explanations
- Title(参考訳): ReproHum #0087-01: Human Evaluation Re production Report for Generating Fact Checking Explanations
- Authors: Tyler Loakman, Chenghua Lin,
- Abstract要約: 本稿では,人間の評価に関するNLP研究の成果を再現する。
その結果,本研究の成果と再現性の間に類似したパターンが見られた。
- 参考スコア(独自算出の注目度): 16.591822946975547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a partial reproduction of Generating Fact Checking Explanations by Anatanasova et al (2020) as part of the ReproHum element of the ReproNLP shared task to reproduce the findings of NLP research regarding human evaluation. This shared task aims to investigate the extent to which NLP as a field is becoming more or less reproducible over time. Following the instructions provided by the task organisers and the original authors, we collect relative rankings of 3 fact-checking explanations (comprising a gold standard and the outputs of 2 models) for 40 inputs on the criteria of Coverage. The results of our reproduction and reanalysis of the original work's raw results lend support to the original findings, with similar patterns seen between the original work and our reproduction. Whilst we observe slight variation from the original results, our findings support the main conclusions drawn by the original authors pertaining to the efficacy of their proposed models.
- Abstract(参考訳): 本稿では、ReproNLP共有タスクのReproHum要素の一部として、Anatanasova et al (2020)によるFact Checking Explanationsの生成の一部を再現し、人間の評価に関するNLP研究の成果を再現する。
この共有タスクは、フィールドとしてのNLPが、時間とともに多かれ少なかれ再現可能であるかを調べることを目的としている。
タスクオーガナイザと原作者の指示に従えば,40入力に対して3つのファクトチェック説明(ゴールド標準と2モデルのアウトプットを含む)の相対的なランキングを,カバレッジの基準に基づいて収集する。
原著の原著の再現と再分析の結果は,原著と原著の再現に類似したパターンを呈し,原著の原著の原著の発見を裏付けるものである。
結果から若干の変動が見られたが,本研究の結果は,提案モデルの有効性に関する原著者の結論を裏付けるものである。
関連論文リスト
- Intrinsic Task-based Evaluation for Referring Expression Generation [9.322715583523928]
最先端のニューラルモデルによって生成されたReferring Expressions(REs)は、textscwebnlgのREsと区別できないだけでなく、単純なルールベースシステムによって生成されたREsからも区別できない。
ここでは、この制限は、純粋に評価に基づく人間評価の使用に起因する可能性があると論じる。
本稿では,REGモデルに対する本質的なタスクベース評価を提案し,REsの品質の評価に加えて,2つのメタレベルタスクの達成が求められた。
論文 参考訳(メタデータ) (2024-02-12T06:21:35Z) - With a Little Help from the Authors: Reproducing Human Evaluation of an
MT Error Detector [4.636982694364995]
本研究は,Vamvas and Sennrich (2022) の論文で提示された人体評価実験の結果を再現し, オーバートランスレーションとアンダートランスレーションを検出する自動システムの評価を行った。
著者らが提供したドキュメンテーションやコードの品質は高いが、正確な実験的なセットアップを再現し、改善のためのレコメンデーションを提供する際に見つかったいくつかの問題について議論する。
論文 参考訳(メタデータ) (2023-08-12T11:00:59Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z) - Quantified Reproducibility Assessment of NLP Results [5.181381829976355]
本稿では,メタロロジーの概念と定義に基づいて量化アセスメント(QRA)を実行する手法について述べる。
我々は18のシステムと評価尺度の組み合わせでQRAを試験し、それぞれに元の結果と1から7の再生結果が得られた。
提案したQRA法は, 再現性スコアを再現性スコアと同等に生成し, 再現性スコアと再現性スコアを比較検討した。
論文 参考訳(メタデータ) (2022-04-12T17:22:46Z) - An Evaluation Study of Generative Adversarial Networks for Collaborative
Filtering [75.83628561622287]
本研究は、原論文で発表された結果の再現に成功し、CFGANフレームワークと原評価で使用されるモデルとの相違が与える影響について論じる。
この研究は、CFGANと単純でよく知られた適切に最適化されたベースラインの選択を比較した実験的な分析をさらに拡張し、CFGANは高い計算コストにもかかわらず、それらに対して一貫して競合していないことを観察した。
論文 参考訳(メタデータ) (2022-01-05T20:53:27Z) - Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks [59.761411682238645]
Retrieval-augmented Generation Modelは、多くの知識集約型NLPタスクにまたがって最先端のパフォーマンスを示している。
生成器の訓練に、パスが出力をサポートするための正しい証拠を含むか否かに関わらず、パスの明快さを組み込む方法を導入する。
論文 参考訳(メタデータ) (2021-12-16T08:18:47Z) - Reproducibility Companion Paper: Knowledge Enhanced Neural Fashion Trend
Forecasting [78.046352507802]
Python実装を使用した実験の複製を可能にするアーティファクトを提供する。
本稿では,本論文で実施した実験を再現し,前報と同様の性能を得る。
論文 参考訳(メタデータ) (2021-05-25T10:53:11Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Generating (Factual?) Narrative Summaries of RCTs: Experiments with
Neural Multi-Document Summarization [22.611879349101596]
系統的なレビューから,関連記事の要約を抽象的に要約するために,現代のニューラルモデルを評価する。
現代の要約システムは一貫して流動的で関連するシナプスを生み出すが、必ずしも現実的とは限らない。
論文 参考訳(メタデータ) (2020-08-25T22:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。