論文の概要: Think Right, Not More: Test-Time Scaling for Numerical Claim Verification
- arxiv url: http://arxiv.org/abs/2509.22101v1
- Date: Fri, 26 Sep 2025 09:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.328586
- Title: Think Right, Not More: Test-Time Scaling for Numerical Claim Verification
- Title(参考訳): 数値的クレーム検証のためのテスト時間スケーリング
- Authors: Primakov Chungkham, V Venktesh, Vinay Setty, Avishek Anand,
- Abstract要約: テスト時間計算は複雑な数値的なクレームの検証に有効であることを示す。
クレームの認識複雑性に基づいてTTSを選択的に実行する適応機構を提案する。
このアプローチは標準のTSよりも1.8倍高い効率を実現し、シングルショットクレーム検証法よりも18.8%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 14.07771397213171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fact-checking real-world claims, particularly numerical claims, is inherently complex that require multistep reasoning and numerical reasoning for verifying diverse aspects of the claim. Although large language models (LLMs) including reasoning models have made tremendous advances, they still fall short on fact-checking real-world claims that require a combination of compositional and numerical reasoning. They are unable to understand nuance of numerical aspects, and are also susceptible to the reasoning drift issue, where the model is unable to contextualize diverse information resulting in misinterpretation and backtracking of reasoning process. In this work, we systematically explore scaling test-time compute (TTS) for LLMs on the task of fact-checking complex numerical claims, which entails eliciting multiple reasoning paths from an LLM. We train a verifier model (VERIFIERFC) to navigate this space of possible reasoning paths and select one that could lead to the correct verdict. We observe that TTS helps mitigate the reasoning drift issue, leading to significant performance gains for fact-checking numerical claims. To improve compute efficiency in TTS, we introduce an adaptive mechanism that performs TTS selectively based on the perceived complexity of the claim. This approach achieves 1.8x higher efficiency than standard TTS, while delivering a notable 18.8% performance improvement over single-shot claim verification methods. Our code and data can be found at https://github.com/VenkteshV/VerifierFC
- Abstract(参考訳): Fact-checking real-world claims、特に数値的クレームは本質的に複雑であり、クレームの様々な側面を検証するために多段階の推論と数値的推論を必要とする。
推論モデルを含む大規模言語モデル(LLM)は大きな進歩を遂げているが、構成的推論と数値的推論の組み合わせを必要とする実世界のクレームはいまだに不足している。
彼らは数値的な側面のニュアンスを理解することができず、推論のドリフト問題にも影響しうる。
本研究では, LLMから複数の推論経路を抽出する複雑な数値クレームをファクトチェックする作業において, LLMのスケーリングテスト時間計算(TTS)を体系的に検討する。
検証モデル(VERIFIERFC)をトレーニングして、推論パスのこの空間をナビゲートし、正しい判断につながる可能性のあるものを選択する。
我々は、TSが推論ドリフト問題を緩和し、事実チェックの数値クレームにおいて大きなパフォーマンス向上をもたらすことを観察した。
TTSの計算効率を向上させるため,要求項の複雑性に基づいてTTSを選択的に実行する適応機構を導入する。
このアプローチは標準のTSよりも1.8倍高い効率を実現し、シングルショットクレーム検証法よりも18.8%の性能向上を実現している。
私たちのコードとデータはhttps://github.com/VenkteshV/VerifierFCで確認できます。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。