論文の概要: Decomposition Dilemmas: Does Claim Decomposition Boost or Burden Fact-Checking Performance?
- arxiv url: http://arxiv.org/abs/2411.02400v1
- Date: Thu, 17 Oct 2024 11:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 13:03:28.645846
- Title: Decomposition Dilemmas: Does Claim Decomposition Boost or Burden Fact-Checking Performance?
- Title(参考訳): 分解ジレンマ:クレーム分解は促進されるか、それともバーデンファクトチェッキング性能は向上するか?
- Authors: Qisheng Hu, Quanyu Long, Wenya Wang,
- Abstract要約: ダウンストリーム検証性能に対する分解の影響について検討する。
本稿では,分解誤差の分類を導入し,精度向上と分解によるノイズとのトレードオフを明らかにする。
我々の分析は、現在のシステムの不安定性を理解するための新たな洞察を与え、将来の研究のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 16.655011153015202
- License:
- Abstract: Fact-checking pipelines increasingly adopt the Decompose-Then-Verify paradigm, where texts are broken down into smaller claims for individual verification and subsequently combined for a veracity decision. While decomposition is widely-adopted in such pipelines, its effects on final fact-checking performance remain underexplored. Some studies have reported improvements from decompostition, while others have observed performance declines, indicating its inconsistent impact. To date, no comprehensive analysis has been conducted to understand this variability. To address this gap, we present an in-depth analysis that explicitly examines the impact of decomposition on downstream verification performance. Through error case inspection and experiments, we introduce a categorization of decomposition errors and reveal a trade-off between accuracy gains and the noise introduced through decomposition. Our analysis provides new insights into understanding current system's instability and offers guidance for future studies toward improving claim decomposition in fact-checking pipelines.
- Abstract(参考訳): ファクトチェックパイプラインはDecompose-Then-Verifyパラダイムを採用しており、テキストは個々の検証のために小さなクレームに分解され、その後、正確性決定のために結合される。
このようなパイプラインでは分解が広く行われているが、最終的なファクトチェック性能への影響は未解明のままである。
退位による改善を報告した研究もあるが、性能低下を観察する研究もあり、矛盾した影響を示している。
これまでのところ、この変数を理解するための包括的な分析は行われていない。
このギャップに対処するため,ダウンストリーム検証性能に対する分解の影響を明らかにする詳細な解析を行った。
誤差ケース検査と実験により,分解誤差の分類を導入し,分解によるノイズと精度ゲインのトレードオフを明らかにする。
我々の分析は、現在のシステムの不安定性を理解するための新たな洞察を与え、ファクトチェックパイプラインにおけるクレームの分解を改善するための将来の研究のためのガイダンスを提供する。
関連論文リスト
- Agentic Verification for Ambiguous Query Disambiguation [42.238086712267396]
本稿では,検索拡張世代(RAG)における問合せの曖昧化という課題に対処する。
本稿では,早期にレシーバとジェネレータからのフィードバックを取り入れて,ダイバーシフィケーションと検証を一体化するための共同手法を提案する。
広く採用されているASQAベンチマークにおいて,本手法の有効性と有効性を検証し,多種多様かつ検証可能な解釈を実現する。
論文 参考訳(メタデータ) (2025-02-14T18:31:39Z) - Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - DnDScore: Decontextualization and Decomposition for Factuality Verification in Long-Form Text Generation [48.134780006638984]
分解と非文脈化は独立に研究されているが、完全なシステムにおける相互作用は研究されていない。
我々は、異なる分解、非文脈化、検証戦略の評価を行い、戦略の選択が結果の事実性スコアに重要であることを確認する。
DnDScoreは文脈情報の文脈におけるサブ文の検証を行う非コンテクスト化対応検証手法である。
論文 参考訳(メタデータ) (2024-12-17T18:54:01Z) - FIZZ: Factual Inconsistency Detection by Zoom-in Summary and Zoom-out Document [6.726343173201447]
そこで本研究では,Zoom-in概要とZoom-out文書による現実的不整合検出の高精度かつ解釈可能な手法を提案する。
我々は、アダプティブ展開を通じて、要約から得られた原子事実とソース文書とを一致させる。
実験結果から,提案手法が既存システムより有意に優れていることが示された。
論文 参考訳(メタデータ) (2024-04-17T09:01:02Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - eXplainable Bayesian Multi-Perspective Generative Retrieval [6.823521786512908]
探索パイプラインに不確実な校正と解釈性を導入する。
LIME や SHAP などの手法を取り入れて,ブラックボックス・リランカモデルの挙動を解析する。
提案手法は3つのKILTデータセットにまたがる大幅な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-04T09:34:13Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。