論文の概要: If We May De-Presuppose: Robustly Verifying Claims through Presupposition-Free Question Decomposition
- arxiv url: http://arxiv.org/abs/2508.16838v1
- Date: Fri, 22 Aug 2025 23:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.202532
- Title: If We May De-Presuppose: Robustly Verifying Claims through Presupposition-Free Question Decomposition
- Title(参考訳): 先延ばし可能な場合:前提のない質問分解によるロバストな検証
- Authors: Shubhashis Roy Dipta, Francis Ferraro,
- Abstract要約: 本稿では,事前仮定のない分解された質問を理由として,構造化された頑健なクレーム検証フレームワークを提案する。
我々の方法はこれらの問題を常に緩和し、最大2-5%の改善を実現します。
- 参考スコア(独自算出の注目度): 8.898066415702596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work has shown that presupposition in generated questions can introduce unverified assumptions, leading to inconsistencies in claim verification. Additionally, prompt sensitivity remains a significant challenge for large language models (LLMs), resulting in performance variance as high as 3-6%. While recent advancements have reduced this gap, our study demonstrates that prompt sensitivity remains a persistent issue. To address this, we propose a structured and robust claim verification framework that reasons through presupposition-free, decomposed questions. Extensive experiments across multiple prompts, datasets, and LLMs reveal that even state-of-the-art models remain susceptible to prompt variance and presupposition. Our method consistently mitigates these issues, achieving up to a 2-5% improvement.
- Abstract(参考訳): 以前の研究では、生成した質問の前提が不確定な仮定を導入し、クレーム検証の不整合をもたらすことが示されている。
さらに、大きな言語モデル(LLM)では、迅速な感度が重要な課題であり、パフォーマンスのばらつきは最大36%に達する。
近年の進歩によってこのギャップは減っているが、我々の研究は、迅速な感度が持続的な問題であることを示している。
そこで本稿では,事前仮定のない非分割質問を理由として,構造化されたロバストなクレーム検証フレームワークを提案する。
複数のプロンプト、データセット、LLMにわたる大規模な実験により、最先端のモデルでさえも、ばらつきや前提条件の迅速な影響を受けやすいことが判明した。
我々の方法はこれらの問題を常に緩和し、最大2-5%の改善を実現します。
関連論文リスト
- LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Preemptive Answer "Attacks" on Chain-of-Thought Reasoning [7.233752893356647]
大きな言語モデル(LLM)は、Chain-of-Thoughtプロンプトと組み合わせることで、印象的な推論機能を示す。
本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。
実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。
論文 参考訳(メタデータ) (2024-05-31T15:15:04Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。