論文の概要: Is the Top Still Spinning? Evaluating Subjectivity in Narrative Understanding
- arxiv url: http://arxiv.org/abs/2504.01132v1
- Date: Tue, 01 Apr 2025 19:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:04.468142
- Title: Is the Top Still Spinning? Evaluating Subjectivity in Narrative Understanding
- Title(参考訳): 最上位は紡績か? : 物語理解における主観性の評価
- Authors: Melanie Subbiah, Akankshya Mishra, Grace Kim, Liyan Tang, Greg Durrett, Kathleen McKeown,
- Abstract要約: 曖昧なクレームにバイナリラベルを強制すると、評価の信頼性が低下する。
請求項のニュアンス評価を提供する方法として,LCM生成した要約の編集を紹介する。
我々は,ARMが主張の忠実性に関するアノテータ合意において,絶対的な21%の改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 50.94206345567363
- License:
- Abstract: Determining faithfulness of a claim to a source document is an important problem across many domains. This task is generally treated as a binary judgment of whether the claim is supported or unsupported in relation to the source. In many cases, though, whether a claim is supported can be ambiguous. For instance, it may depend on making inferences from given evidence, and different people can reasonably interpret the claim as either supported or unsupported based on their agreement with those inferences. Forcing binary labels upon such claims lowers the reliability of evaluation. In this work, we reframe the task to manage the subjectivity involved with factuality judgments of ambiguous claims. We introduce LLM-generated edits of summaries as a method of providing a nuanced evaluation of claims: how much does a summary need to be edited to be unambiguous? Whether a claim gets rewritten and how much it changes can be used as an automatic evaluation metric, the Ambiguity Rewrite Metric (ARM), with a much richer feedback signal than a binary judgment of faithfulness. We focus on the area of narrative summarization as it is particularly rife with ambiguity and subjective interpretation. We show that ARM produces a 21% absolute improvement in annotator agreement on claim faithfulness, indicating that subjectivity is reduced.
- Abstract(参考訳): ソースドキュメントに対するクレームの忠実性を決定することは、多くのドメインにおいて重要な問題である。
このタスクは、一般的に、クレームがソースに関してサポートされているかサポートされていないかのバイナリな判断として扱われる。
しかし多くの場合、主張が支持されるかどうかは曖昧である。
例えば、それは与えられた証拠から推論を行うことに依存し、異なる人々は、それらの推論との合意に基づいて、その主張を支持または支持のどちらかとして合理的に解釈することができる。
このようなクレームにバイナリラベルを強制すると、評価の信頼性が低下する。
本研究では,不明瞭なクレームの事実性判断に関わる主観性を管理するタスクを再編成する。
請求項のニュアンスな評価を提供する方法として,LCM生成した要約の編集を紹介した。
クレームが書き換えられるか、どの程度の変更が自動評価指標として使用できるかに関わらず、ARM(Ambiguity Rewrite Metric)は、忠実性のバイナリ判断よりもはるかにリッチなフィードバック信号を持つ。
特にあいまいさと主観的解釈に苦しむ物語要約の分野に焦点をあてる。
ARMは,主張忠実度に関するアノテータ合意において21%の絶対的改善を達成し,主観性を低下させることを示す。
関連論文リスト
- Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation [29.44609627447293]
本稿では,複数のエージェントに初期スタンスを割り当てた忠実度評価を要約する手法を提案する。
我々は、このような特殊な事例を特定するために、新しい次元、曖昧さ、詳細な分類を導入します。
実験により、我々のアプローチはあいまいさの識別に役立ち、曖昧でない要約でもより強力なパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2025-02-12T15:46:50Z) - Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation [21.650619533772232]
「本研究は、要約文の表面的属性が事実性を予測するのに十分であるかどうかを考察する。」
そして, 実測値が矛盾した要約の事実的訂正にどのように反応するかを評価し, 有意義な改善を示すものはごくわずかであることを確認した。
これらの知見に触発されて、生成した要約に無害な文を付加することにより、(最も)自動的事実性指標、すなわち、確実に事実性スコアをインフレーションすることができることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:15:15Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Defeaters and Eliminative Argumentation in Assurance 2.0 [0.0]
本報告では、アシュアランス2.0において、敗者、および複数レベルの敗者がどのように表現され、評価されるべきかを述べる。
このプロセスの有効な懸念は、人間の判断が誤認しやすく、偏見の確認が難しいことである。
論文 参考訳(メタデータ) (2024-05-16T22:10:01Z) - Longitudinal Counterfactuals: Constraints and Opportunities [59.11233767208572]
本稿では,反ファクトの妥当性を評価・改善するために,縦断データを用いた手法を提案する。
本研究では, 縦差と反実差を比較する指標を開発し, 先行観測した変化と反実差の類似性を評価する。
論文 参考訳(メタデータ) (2024-02-29T20:17:08Z) - AFaCTA: Assisting the Annotation of Factual Claim Detection with Reliable LLM Annotators [38.523194864405326]
AFaCTAは、事実主張のアノテーションを支援する新しいフレームワークである。
AFaCTAは、3つの事前定義された推論経路に沿って、アノテーションの信頼度を一貫性で調整する。
PoliClaimは、さまざまな政治的トピックにまたがる包括的なクレーム検出データセットである。
論文 参考訳(メタデータ) (2024-02-16T20:59:57Z) - Generating Literal and Implied Subquestions to Fact-check Complex Claims [64.81832149826035]
我々は、複雑なクレームを、そのクレームの正確性に影響を及ぼす「イエス・ノー・サブクエスト」の包括的集合に分解することに集中する。
我々は1000以上のクレームに対する分解のデータセットである ClaimDecomp を提示する。
これらのサブクエストは、関連する証拠を特定し、すべてのクレームを事実確認し、回答を通じて正確性を引き出すのに役立ちます。
論文 参考訳(メタデータ) (2022-05-14T00:40:57Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z) - Towards Faithfully Interpretable NLP Systems: How should we define and
evaluate faithfulness? [58.13152510843004]
ディープラーニングベースのNLPモデルの普及に伴い、解釈可能なシステムの必要性が高まっている。
解釈可能性とは何か、そして高品質な解釈を構成するものは何か?
我々は、解釈が満たすべき異なる望ましい基準をより明確に区別し、忠実度基準に焦点を合わせることを求めている。
論文 参考訳(メタデータ) (2020-04-07T20:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。