論文の概要: Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
- arxiv url: http://arxiv.org/abs/2509.06861v1
- Date: Mon, 08 Sep 2025 16:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.257977
- Title: Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
- Title(参考訳): 推論モデルにおけるテスト時間スケーリングは、知識集約的なタスクにはまだ有効ではない
- Authors: James Xu Zhao, Bryan Hooi, See-Kiong Ng,
- Abstract要約: テストタイムスケーリングは、モデルが長い推論チェーンを生成することによって、推論時間計算を増加させる。
本手法は,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,まだ有効ではないことを示す。
以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
- 参考スコア(独自算出の注目度): 93.00109641811788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-time computation does not consistently improve accuracy and, in many cases, it even leads to more hallucinations. We then analyze how extended reasoning affects hallucination behavior. We find that reduced hallucinations often result from the model choosing to abstain after thinking more, rather than from improved factual recall. Conversely, for some models, longer reasoning encourages attempts on previously unanswered questions, many of which result in hallucinations. Case studies show that extended reasoning can induce confirmation bias, leading to overconfident hallucinations. Despite these limitations, we observe that compared to non-thinking, enabling thinking remains beneficial. Code and data are available at https://github.com/XuZhao0/tts-knowledge
- Abstract(参考訳): テストタイムスケーリングは、モデルが長い推論チェーンを生成できるようにすることで、推論時間計算を増大させ、多くのドメインで強力なパフォーマンスを示している。
しかし,本研究では,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,このアプローチがまだ有効ではないことを示す。
我々は2つの知識集約型ベンチマーク上で12の推論モデルを用いてテスト時間スケーリングの包括的な評価を行う。
以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
次に、拡張推論が幻覚行動にどのように影響するかを分析する。
幻覚の減少は、事実のリコールの改善よりも、思考の後に禁じることを選んだモデルが原因であることがよく分かる。
逆に、一部のモデルでは、より長い推論は未回答の質問に対する試みを奨励し、その多くは幻覚をもたらす。
ケーススタディでは、拡張推論は確認バイアスを誘発し、過信の幻覚を引き起こすことが示されている。
これらの制限にもかかわらず、非思考と比較して、思考を可能にすることは有益である。
コードとデータはhttps://github.com/XuZhao0/tts-knowledgeで公開されている。
関連論文リスト
- More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models [43.465268635499754]
テストタイム計算は、拡張推論チェーンを生成するために、大きな言語モデルに権限を与えた。
世代が長くなるにつれて、モデルは画像付きコンテンツから遠ざかっていき、言語優先に大きく依存する傾向にある。
論文 参考訳(メタデータ) (2025-05-23T05:08:40Z) - Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models [8.97308732968526]
本研究では,制約付き知識領域における幻覚の因果関係について,チェーン・オブ・ソート(Chain-of-Thought)の軌跡を監査することによって検討する。
我々の分析によると、長いCoT設定では、RLLMは欠陥のある反射的推論を通じてバイアスやエラーを反復的に補強することができる。
驚いたことに、幻覚の根源にある直接的な介入でさえ、その効果を覆すことができないことが多い。
論文 参考訳(メタデータ) (2025-05-19T14:11:09Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。