論文の概要: Partial Reasoning in Language Models: Search and Refinement Guided by Uncertainty
- arxiv url: http://arxiv.org/abs/2601.12040v1
- Date: Sat, 17 Jan 2026 13:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.436114
- Title: Partial Reasoning in Language Models: Search and Refinement Guided by Uncertainty
- Title(参考訳): 言語モデルにおける部分的推論:不確実性によって導かれる探索と補間
- Authors: Murilo da Luz, Bruno Brandão, Luana Martins, Gustavo Oliveira, Bryan de Oliveira, Luckeciano Melo, Telma Soares,
- Abstract要約: PreGUは自己回帰生成中の出力分布のエントロピーを監視し、エントロピーが定義された閾値を超えるとプロセスが停止し、不確実性を示す。
その点から、部分的推論を洗練させ、最も一貫性のある答えを選択するために、潜在空間で局所探索を行う。
LLaMA-3-8B、Mistral-7B、Qwen2-7Bの4つの推論ベンチマークによる実験では、ソフト推論よりも性能が高かった。
- 参考スコア(独自算出の注目度): 0.3072160175277028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of Large Language Models (LLMs) for reasoning and planning tasks has drawn increasing attention in Artificial Intelligence research. Despite their remarkable progress, these models still exhibit limitations in multi-step inference scenarios, particularly in mathematical and logical reasoning. We introduce PREGU (Partial Reasoning Guided by Uncertainty). PREGU monitors the entropy of the output distribution during autoregressive generation and halts the process whenever entropy exceeds a defined threshold, signaling uncertainty. From that point, a localized search is performed in the latent space to refine the partial reasoning and select the most coherent answer, using the Soft Reasoning method. Experiments conducted with LLaMA-3-8B, Mistral-7B, and Qwen2-7B across four reasoning benchmarks (GSM8K, GSM-Hard, SVAMP, and StrategyQA) showed performance greater than or similar to Soft Reasoning, indicating that entropy can serve as an effective signal to trigger selective refinement during reasoning.
- Abstract(参考訳): 推論や計画作業にLarge Language Models(LLM)を使用することは、人工知能研究において注目を集めている。
その顕著な進歩にもかかわらず、これらのモデルは、特に数学的および論理的推論において、多段階の推論シナリオに制限を呈している。
今回,PreGU (Partial Reasoning Guided by Uncertainty)を紹介する。
PreGUは自己回帰生成中の出力分布のエントロピーを監視し、エントロピーが定義された閾値を超えるとプロセスが停止し、不確実性を示す。
その点から、部分的推論を洗練させ、ソフト推論法を用いて最も一貫性のある解を選択するために、潜時空間で局所探索を行う。
LLaMA-3-8B、Mistral-7B、Qwen2-7Bの4つの推論ベンチマーク(GSM8K、GSM-Hard、SVAMP、StrategyQA)で行った実験では、エントロピーが推論中の選択的洗練をトリガーする効果的な信号として機能することを示した。
関連論文リスト
- Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Learning to Reason in LLMs by Expectation Maximization [55.721496945401846]
我々は推論を潜在変数モデルとして定式化し、推論を学ぶための期待最大化目標を導出する。
この見解はEMと現代の報酬に基づく最適化を結びつけるものであり、正しい答えを正当化する有理性を生成するサンプリング分布を設計することの主な課題であることを示している。
論文 参考訳(メタデータ) (2025-12-23T08:56:49Z) - seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Thinking About Thinking: SAGE-nano's Inverse Reasoning for Self-Aware Language Models [0.0]
大規模言語モデル(LLM)は、Chain-of-Thoughtプロンプトで複雑な推論タスクを解く際、顕著な能力を示した。
我々は, LLM を分解し, 自己の推論連鎖をポストホックで説明できる新しいパラダイムであるtextbfinverse reasoning を紹介した。
私たちの研究は、透明なAIシステムのための新たな道を作り、AIの安全性、教育、科学的発見において大きなギャップを埋めます。
論文 参考訳(メタデータ) (2025-06-30T09:53:41Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models [0.0]
大規模言語モデル(LLM)は、潜在空間内と外部の両方で推論計算を行うことができる。
本研究では,異なる領域におけるモデル内部推論を定量化するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-14T18:15:27Z) - Entropy-based Exploration Conduction for Multi-step Reasoning [15.589134593402589]
大規模言語モデル(LLM)による多段階プロセスは、複雑な推論タスクを解くのに有効であることが証明されている。
深度を自動的に決定する既存の手法は、しばしば高コストと柔軟性の欠如につながる。
本研究では,探索深度を動的に調整する新しい手法であるエントロピーに基づく探索深度伝導法を提案する。
論文 参考訳(メタデータ) (2025-03-20T05:03:26Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。