論文の概要: Where Reasoning Breaks: Logic-Aware Path Selection by Controlling Logical Connectives in LLMs Reasoning Chains
- arxiv url: http://arxiv.org/abs/2604.20564v1
- Date: Wed, 22 Apr 2026 13:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.150759
- Title: Where Reasoning Breaks: Logic-Aware Path Selection by Controlling Logical Connectives in LLMs Reasoning Chains
- Title(参考訳): LLMにおける論理接続制御による論理認識経路選択
- Authors: Seunghyun Park, Yuanyuan Lei,
- Abstract要約: 我々は、この構造的脆弱性の主要なポイントとして、論理的結合体を同定する。
推論過程におけるこれらの論理クリティカルな接合に特異的に介入するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.740591992262573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While LLMs demonstrate impressive reasoning capabilities, they remain fragile in multi-step logical deduction, where a single transition error can propagate through the entire reasoning chain, leading to unstable performance. In this work, we identify logical connectives as primary points of this structural fragility. Through empirical analysis, we show that connective tokens function as high entropy forking points, at which models frequently struggle to determine the correct logical direction. Motivated by this observation, we hypothesize that intervening in logical connective selection can guide LLMs toward more correct logical direction, thereby improving the overall reasoning chain. To validate this hypothesis, we propose a multi-layered framework that intervenes specifically at these logic-critical junctions in the reasoning process. Our framework includes (1) Gradient-based Logical Steering to guide LLMs internal representations towards valid reasoning subspaces, (2) Localized Branching to resolve ambiguity via targeted look-ahead search, and (3) Targeted Transition Preference Optimization, a surgical reinforcement learning objective that selectively optimizes single-token preferences at logical pivots. Crucially, by concentrating intervention solely on logic-critical transitions, our framework achieves a favorable accuracy--efficiency trade-off compared to global inference time scaling methods like beam search and self-consistency.
- Abstract(参考訳): LLMは印象的な推論能力を示すが、多段階論理推論において脆弱なままであり、単一の遷移エラーが推論チェーン全体を通して伝播し、不安定な性能をもたらす。
この研究では、この構造的不安定性の主点として論理的連結体を同定する。
経験的分析により、連結トークンは高いエントロピーフォークポイントとして機能し、モデルが正しい論理的方向を決定するのにしばしば苦労することを示す。
本研究は, 論理結合選択の介入により, LLMをより正しい論理方向に導くことができ, 全体としての推論連鎖を改善することができると仮定した。
この仮説を検証するために、推論過程におけるこれらの論理クリティカルジャンクションに特異的に介入する多層フレームワークを提案する。
本フレームワークは,(1)LLMの内部表現を有効な推論部分空間に導くためのグラディエントベースの論理的ステアリング,(2)目的のルックアヘッド探索によるあいまいさを解消するための局所分岐,(3)論理ピボットにおける単一トークンの選好を選択的に最適化する外科的強化学習目的であるTargeted Transition Preference Optimizationを含む。
重要なことは、論理クリティカルな遷移のみに介入を集中させることで、ビームサーチや自己整合性のようなグローバルな推論時間スケーリング手法と比較して、我々のフレームワークは良好な精度-効率のトレードオフを達成する。
関連論文リスト
- Logical Phase Transitions: Understanding Collapse in LLM Logical Reasoning [17.5066777599458]
記号的論理的推論は、大言語モデル(LLM)の批判的だが未発見の機能である
論理的推論性能は政権内では安定だが, 批判的論理的深度を超えて急激に崩壊することを示す。
本稿では,自然言語と論理記号を適応的にアライメントし,共有表現を確立する原理的フレームワークであるNeuro-Symbolic Curriculum Tuningを提案する。
論文 参考訳(メタデータ) (2026-01-06T10:38:25Z) - Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
バッチ推論前のウォームアップフェーズにおいて,LLMの論理的推論能力を高めるために,Reversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - Logic Agent: Enhancing Validity with Logic Rule Invocation [24.815341366820753]
Chain-of-Thoughtプロンプトは、推論タスク中に言語モデルの推論能力を増強するための重要なテクニックとして現れている。
本稿では,大規模言語モデルにおける推論プロセスの有効性向上を目的としたエージェントベースのフレームワークであるLogic Agent(LA)を紹介する。
論文 参考訳(メタデータ) (2024-04-28T10:02:28Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。