論文の概要: Improving Chain-of-Thought for Logical Reasoning via Attention-Aware Intervention
- arxiv url: http://arxiv.org/abs/2601.09805v1
- Date: Wed, 14 Jan 2026 19:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.865404
- Title: Improving Chain-of-Thought for Logical Reasoning via Attention-Aware Intervention
- Title(参考訳): アテンション・アウェア・インターベンションによる論理的推論のためのチェーン・オブ・ソートの改良
- Authors: Nguyen Minh Phuong, Dang Huu Tien, Naoya Inoue,
- Abstract要約: 非インタラクティブなエンドツーエンドフレームワークは、モデル自体に推論が現れることを可能にする。
本研究は,数発のプロンプトに構造情報を導入することで,論理的推論演算子に整合したパターンのアテンションヘッドのサブセットを活性化することを示す。
本研究では,AAI(Attention-Aware Intervention)を提案する。AAI(Attention-Aware Intervention)は,その論理パターンによって認識される選択された頭部の注意点を重み付けする推論時間介入手法である。
- 参考スコア(独自算出の注目度): 4.584629831500306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern logical reasoning with LLMs primarily relies on employing complex interactive frameworks that decompose the reasoning process into subtasks solved through carefully designed prompts or requiring external resources (e.g., symbolic solvers) to exploit their strong logical structures. While interactive approaches introduce additional overhead, hybrid approaches depend on external components, which limit their scalability. A non-interactive, end-to-end framework enables reasoning to emerge within the model itself -- improving generalization while preserving analyzability without any external resources. In this work, we introduce a non-interactive, end-to-end framework for reasoning tasks. We show that introducing structural information into the few-shot prompt activates a subset of attention heads that patterns aligned with logical reasoning operators. Building on this insight, we propose Attention-Aware Intervention (AAI), an inference-time intervention method that reweights attention scores across selected heads identified by their logical patterns. AAI offers an efficient way to steer the model's reasoning toward leveraging prior knowledge through attention modulation. Extensive experiments show that AAI enhances logical reasoning performance across diverse benchmarks and model architectures, while incurring negligible additional computational overhead. Code is available at https://github.com/phuongnm94/aai_for_logical_reasoning.
- Abstract(参考訳): LLMによる現代的な論理的推論は、主に複雑な対話的フレームワークを用いて、慎重に設計されたプロンプトを通じて解決されたサブタスクに推論プロセスを分解するか、あるいはその強力な論理的構造を利用するために外部リソース(例えばシンボリック・ソルバ)を必要とする。
インタラクティブなアプローチはさらなるオーバーヘッドをもたらすが、ハイブリッドなアプローチはスケーラビリティを制限する外部コンポーネントに依存している。
非インタラクティブなエンドツーエンドフレームワークは、モデル自体に推論が現れることを可能にする -- 外部リソースなしで分析性を保持しながら、一般化を改善します。
本研究では,タスク推論のための非インタラクティブなエンドツーエンドフレームワークを提案する。
本研究は,数発のプロンプトに構造情報を導入することで,論理的推論演算子に整合したパターンのアテンションヘッドのサブセットを活性化することを示す。
この知見に基づいて,論理パターンによって識別された選択された頭部の注意点を重み付けする推論時間介入法である注意意識介入(AAI)を提案する。
AAIは、注意調整を通じて事前の知識を活用するためのモデルの推論を効果的に制御する方法を提供する。
大規模な実験により、AAIは様々なベンチマークやモデルアーキテクチャにまたがる論理的推論性能を高めつつ、無視できない計算オーバーヘッドを発生させることが示された。
コードはhttps://github.com/phuongnm94/aai_for_logical_reasoningで公開されている。
関連論文リスト
- ActivationReasoning: Logical Reasoning in Latent Activation Spaces [43.17973499652433]
大きな言語モデル (LLM) は、流動的なテキストを生成するのに優れているが、内部の推論は不透明で制御が難しいままである。
LLMの潜在空間に明示的な論理的推論を組み込むフレームワークである ActivationReasoning (AR) を導入する。
ARは推論の複雑さで堅牢にスケールし、抽象的でコンテキストに敏感なタスクに一般化し、モデルバックボーン間で転送する。
論文 参考訳(メタデータ) (2025-10-21T00:21:04Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - KAG-Thinker: Interactive Thinking and Deep Reasoning in LLMs via Knowledge-Augmented Generation [35.555200530999365]
我々は、KAG-Thinkerを導入し、KAGをマルチターン対話型思考と、専用パラメータライト大言語モデル(LLM)を利用した深い推論フレームワークにアップグレードする。
提案手法は,複雑な問題を解くための構造化思考プロセスを構築し,推論過程の論理的一貫性と文脈的整合性を高める。
論文 参考訳(メタデータ) (2025-06-21T14:58:53Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools [19.70178343422698]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。
私たちのフレームワークにおける重要な革新はMind-Mapエージェントです。
DeepSeek-R1にデプロイすると、パブリックモデル間で新しいSOTA(State-of-the-art)を実現する。
論文 参考訳(メタデータ) (2025-02-07T04:08:46Z) - Logic Agent: Enhancing Validity with Logic Rule Invocation [24.815341366820753]
Chain-of-Thoughtプロンプトは、推論タスク中に言語モデルの推論能力を増強するための重要なテクニックとして現れている。
本稿では,大規模言語モデルにおける推論プロセスの有効性向上を目的としたエージェントベースのフレームワークであるLogic Agent(LA)を紹介する。
論文 参考訳(メタデータ) (2024-04-28T10:02:28Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - LogiGAN: Learning Logical Reasoning via Adversarial Pre-training [58.11043285534766]
本稿では,言語モデルの論理的推論能力を向上させるために,教師なしの対人事前学習フレームワークLogiGANを提案する。
人間の学習におけるリフレクティブ思考の促進効果に着想を得て,逆生成検証アーキテクチャを用いて学習思考過程をシミュレートする。
LogiGANで事前トレーニングされたベースモデルと大規模言語モデルの両方で、12のデータセットで明らかなパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2022-05-18T08:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。