論文の概要: RAVR: Reference-Answer-guided Variational Reasoning for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.25206v1
- Date: Wed, 29 Oct 2025 06:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.181969
- Title: RAVR: Reference-Answer-guided Variational Reasoning for Large Language Models
- Title(参考訳): RAVR:大規模言語モデルに対する参照答え誘導変分推論
- Authors: Tianqianjin Lin, Xi Zhao, Xingyao Zhang, Rujiao Long, Yi Xu, Zhuoren Jiang, Wenbo Su, Bo Zheng,
- Abstract要約: 本稿では,質問のみの推論のための変分サロゲートとして応答条件推論を利用する,エンドツーエンドのフレームワークであるRAVRを紹介する。
RAVRはためらいを減らし、結論の統合を強化し、推論における問題固有の戦略を促進する。
- 参考スコア(独自算出の注目度): 21.671577399379885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) can refine the reasoning abilities of large language models (LLMs), but critically depends on a key prerequisite: the LLM can already generate high-utility reasoning paths with non-negligible probability. For tasks beyond the LLM's current competence, such reasoning path can be hard to sample, and learning risks reinforcing familiar but suboptimal reasoning. We are motivated by the insight from cognitive science that Why is this the answer is often an easier question than What is the answer, as it avoids the heavy cognitive load of open-ended exploration, opting instead for explanatory reconstruction-systematically retracing the reasoning that links a question to its answer. We show that LLMs can similarly leverage answers to derive high-quality reasoning paths. We formalize this phenomenon and prove that conditioning on answer provably increases the expected utility of sampled reasoning paths, thereby transforming intractable problems into learnable ones. Building on this insight, we introduce RAVR (Reference-Answer-guided Variational Reasoning), an end-to-end framework that uses answer-conditioned reasoning as a variational surrogate for question-only reasoning. Experiments in both general and math domains demonstrate consistent improvements over strong baselines. We further analyze the reasoning behavior and find that RAVR reduces hesitation, strengthens conclusion consolidation, and promotes problem-specific strategies in reasoning.
- Abstract(参考訳): 強化学習(RL)は、大きな言語モデル(LLM)の推論能力を洗練することができるが、重要な前提条件に依存している。
LLMの現在の能力を超えたタスクでは、そのような推論パスをサンプリングすることは困難であり、慣れ親しんだが最適でない推論を補強するリスクを学習する。
私たちは認知科学からの洞察に動機付けられています。なぜ答えは答えよりも容易な質問であり、それはオープンエンド探索の重い認知的負荷を回避し、代わりに説明的再構築を選択し、質問と回答をリンクする理由を体系的に追跡するからです。
LLMも同様に回答を活用でき、高品質な推論経路を導出できることを示す。
我々は,この現象を定式化し,回答の条件付けが標本推論経路の期待された有用性を高めることを証明し,難解な問題を学習可能なものに変換する。
この知見に基づいて、質問専用推論の変分代用として回答条件推論を利用するエンドツーエンドフレームワークであるRAVR(Reference-Answer-guided Variational Reasoning)を紹介する。
一般領域と数学領域の両方の実験では、強いベースラインよりも一貫した改善が示されている。
我々はさらに推論の振る舞いを分析し、RAVRが解法を減らし、結論の整合性を強化し、推論における問題固有の戦略を促進することを見出した。
関連論文リスト
- Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs [28.556628696390767]
大きな言語モデル(LLM)は印象的な推論機能を示している。
彼らの成功の多くは、真の推論よりも、暗記された回答推論パターンに起因している、とエビデンスは示唆している。
本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-21T08:15:45Z) - Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary? [60.725923225442095]
我々は、推論に基づくポイントワイドリランカ(ReasonRR)と、同じ訓練条件下での標準、非推論ポイントワイドリランカ(StandardRR)を比較した。
ReasonRR-NoReasonはReasonRRよりも驚くほど効果的であることがわかった。
論文 参考訳(メタデータ) (2025-05-22T16:41:37Z) - LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - SR-FoT: A Syllogistic-Reasoning Framework of Thought for Large Language Models Tackling Knowledge-based Reasoning Tasks [42.392103712958445]
大規模言語モデル(LLM)は正しい推論パスに従わないかもしれない。
我々は、多段階のSylological-Reasoning Framework of Thought (SR-FoT)を提案する。
我々のSR-FoTは、まず質問を解釈し、それから解釈と元の質問を使って適切な主要な前提を提案する。
論文 参考訳(メタデータ) (2025-01-20T17:00:41Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。