Fugu-MT 論文翻訳(概要): Decomposition Dilemmas: Does Claim Decomposition Boost or Burden Fact-Checking Performance?

論文の概要: Decomposition Dilemmas: Does Claim Decomposition Boost or Burden Fact-Checking Performance?

arxiv url: http://arxiv.org/abs/2411.02400v1
Date: Thu, 17 Oct 2024 11:45:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.244139
Title: Decomposition Dilemmas: Does Claim Decomposition Boost or Burden Fact-Checking Performance?
Title（参考訳）: 分解ジレンマ:クレーム分解は促進されるか、それともバーデンファクトチェッキング性能は向上するか?
Authors: Qisheng Hu, Quanyu Long, Wenya Wang,
Abstract要約: ダウンストリーム検証性能に対する分解の影響について検討する。本稿では,分解誤差の分類を導入し,精度向上と分解によるノイズとのトレードオフを明らかにする。我々の分析は、現在のシステムの不安定性を理解するための新たな洞察を与え、将来の研究のためのガイダンスを提供する。
参考スコア（独自算出の注目度）: 16.655011153015202
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Fact-checking pipelines increasingly adopt the Decompose-Then-Verify paradigm, where texts are broken down into smaller claims for individual verification and subsequently combined for a veracity decision. While decomposition is widely-adopted in such pipelines, its effects on final fact-checking performance remain underexplored. Some studies have reported improvements from decompostition, while others have observed performance declines, indicating its inconsistent impact. To date, no comprehensive analysis has been conducted to understand this variability. To address this gap, we present an in-depth analysis that explicitly examines the impact of decomposition on downstream verification performance. Through error case inspection and experiments, we introduce a categorization of decomposition errors and reveal a trade-off between accuracy gains and the noise introduced through decomposition. Our analysis provides new insights into understanding current system's instability and offers guidance for future studies toward improving claim decomposition in fact-checking pipelines.
Abstract（参考訳）: ファクトチェックパイプラインはDecompose-Then-Verifyパラダイムを採用しており、テキストは個々の検証のために小さなクレームに分解され、その後、正確性決定のために結合される。このようなパイプラインでは分解が広く行われているが、最終的なファクトチェック性能への影響は未解明のままである。退位による改善を報告した研究もあるが、性能低下を観察する研究もあり、矛盾した影響を示している。これまでのところ、この変数を理解するための包括的な分析は行われていない。このギャップに対処するため,ダウンストリーム検証性能に対する分解の影響を明らかにする詳細な解析を行った。誤差ケース検査と実験により,分解誤差の分類を導入し,分解によるノイズと精度ゲインのトレードオフを明らかにする。我々の分析は、現在のシステムの不安定性を理解するための新たな洞察を与え、ファクトチェックパイプラインにおけるクレームの分解を改善するための将来の研究のためのガイダンスを提供する。

関連論文リスト

Fact in Fragments: Deconstructing Complex Claims via LLM-based Atomic Fact Extraction and Verification [18.20994425756688]
Atomic Fact extract and Verification (AFEV) は、複雑なクレームを原子事実に反復的に分解する新しいフレームワークである。 AFEVは、精度と解釈可能性の両方において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-09T05:49:43Z)
Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。因果効果は肯定的か否定的か? 本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文参考訳（メタデータ） (2025-05-30T07:13:01Z)
Optimizing Decomposition for Optimal Claim Verification [15.68967195914405]
既存の分解ポリシー、通常は手作りのデモは、原子性の観点から下流の検証器とうまく一致しない。本稿では,検証者からのフィードバックを利用して,検証者優先の原子性に対する要求を動的に分解する政策を学習する強化学習フレームワークである動的分解を提案する。実験の結果、動的分解は既存の分解ポリシーより優れており、検証信頼度は0.07向上し、入力クレームの検証器、データセット、原子度の平均で0.12精度が向上していることがわかった。
論文参考訳（メタデータ） (2025-03-19T15:56:21Z)
Agentic Verification for Ambiguous Query Disambiguation [42.238086712267396]
本稿では,検索拡張世代(RAG)における問合せの曖昧化という課題に対処する。本稿では,早期にレシーバとジェネレータからのフィードバックを取り入れて,ダイバーシフィケーションと検証を一体化するための共同手法を提案する。広く採用されているASQAベンチマークにおいて,本手法の有効性と有効性を検証し,多種多様かつ検証可能な解釈を実現する。
論文参考訳（メタデータ） (2025-02-14T18:31:39Z)
Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文参考訳（メタデータ） (2025-02-01T02:08:49Z)
DnDScore: Decontextualization and Decomposition for Factuality Verification in Long-Form Text Generation [48.134780006638984]
分解と非文脈化は独立に研究されているが、完全なシステムにおける相互作用は研究されていない。我々は、異なる分解、非文脈化、検証戦略の評価を行い、戦略の選択が結果の事実性スコアに重要であることを確認する。 DnDScoreは文脈情報の文脈におけるサブ文の検証を行う非コンテクスト化対応検証手法である。
論文参考訳（メタデータ） (2024-12-17T18:54:01Z)
A Taxonomy for Data Contamination in Large Language Models [12.643103231497813]
増大する懸念は、事前学習コーパスに評価データセットを含めることができるデータ汚染である。このようなデータを検知し、除去するプロセスである汚染除去は、潜在的な解決策である。下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。
論文参考訳（メタデータ） (2024-07-11T17:50:34Z)
On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-24T08:08:05Z)
FIZZ: Factual Inconsistency Detection by Zoom-in Summary and Zoom-out Document [6.726343173201447]
そこで本研究では,Zoom-in概要とZoom-out文書による現実的不整合検出の高精度かつ解釈可能な手法を提案する。我々は、アダプティブ展開を通じて、要約から得られた原子事実とソース文書とを一致させる。実験結果から,提案手法が既存システムより有意に優れていることが示された。
論文参考訳（メタデータ） (2024-04-17T09:01:02Z)
Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。因果表現の識別可能性に寄与する分布シフトのタイプを決定する。本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文参考訳（メタデータ） (2024-03-23T04:13:55Z)
eXplainable Bayesian Multi-Perspective Generative Retrieval [6.823521786512908]
探索パイプラインに不確実な校正と解釈性を導入する。 LIME や SHAP などの手法を取り入れて,ブラックボックス・リランカモデルの挙動を解析する。提案手法は3つのKILTデータセットにまたがる大幅な性能向上を示す。
論文参考訳（メタデータ） (2024-02-04T09:34:13Z)
Efficient Transfer Learning via Causal Bounds [8.981637739384674]
我々は、因果側情報がどのようにオンライン学習を加速するかを分析し、データ削減の実験を行う。我々の分析は、因果側情報がどのようにオンライン学習を加速させるか、およびデータ削減の実験を正確に特徴付ける。
論文参考訳（メタデータ） (2023-08-07T13:24:50Z)
Embracing the chaos: analysis and diagnosis of numerical instability in variational flows [19.063766592495597]
変動流中における数値不安定性がサンプリングの信頼性,密度評価,およびエビデンス低境界(ELBO)推定に及ぼす影響について検討した。その結果, 数値不安定性が高いにもかかわらず, 流れの結果はアプリケーションに十分正確であることが判明した。
論文参考訳（メタデータ） (2023-07-12T23:13:10Z)
Interpretable Automatic Fine-grained Inconsistency Detection in Text Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文参考訳（メタデータ） (2023-05-23T22:11:47Z)
Revisiting the Fragility of Influence Functions [1.4699455652461724]
残余が損失に与える影響を近似した影響関数は、ディープラーニングモデルの正確性や忠実性を検証するために提案されている。ここでは、影響関数の検証に使用される主要な指標を分析する。以上の結果から,検証作業が不明確になる可能性が示唆された。
論文参考訳（メタデータ） (2023-03-22T21:36:56Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)
Deconfounded Score Method: Scoring DAGs with Dense Unobserved Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-28T11:07:59Z)
The Curse of Performance Instability in Analysis Datasets: Consequences, Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文参考訳（メタデータ） (2020-04-28T15:41:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。