論文の概要: Improving Chain-of-Thought for Logical Reasoning via Attention-Aware Intervention
- arxiv url: http://arxiv.org/abs/2601.09805v1
- Date: Wed, 14 Jan 2026 19:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.865404
- Title: Improving Chain-of-Thought for Logical Reasoning via Attention-Aware Intervention
- Title(参考訳): アテンション・アウェア・インターベンションによる論理的推論のためのチェーン・オブ・ソートの改良
- Authors: Nguyen Minh Phuong, Dang Huu Tien, Naoya Inoue,
- Abstract要約: 非インタラクティブなエンドツーエンドフレームワークは、モデル自体に推論が現れることを可能にする。
本研究は,数発のプロンプトに構造情報を導入することで,論理的推論演算子に整合したパターンのアテンションヘッドのサブセットを活性化することを示す。
本研究では,AAI(Attention-Aware Intervention)を提案する。AAI(Attention-Aware Intervention)は,その論理パターンによって認識される選択された頭部の注意点を重み付けする推論時間介入手法である。
- 参考スコア(独自算出の注目度): 4.584629831500306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern logical reasoning with LLMs primarily relies on employing complex interactive frameworks that decompose the reasoning process into subtasks solved through carefully designed prompts or requiring external resources (e.g., symbolic solvers) to exploit their strong logical structures. While interactive approaches introduce additional overhead, hybrid approaches depend on external components, which limit their scalability. A non-interactive, end-to-end framework enables reasoning to emerge within the model itself -- improving generalization while preserving analyzability without any external resources. In this work, we introduce a non-interactive, end-to-end framework for reasoning tasks. We show that introducing structural information into the few-shot prompt activates a subset of attention heads that patterns aligned with logical reasoning operators. Building on this insight, we propose Attention-Aware Intervention (AAI), an inference-time intervention method that reweights attention scores across selected heads identified by their logical patterns. AAI offers an efficient way to steer the model's reasoning toward leveraging prior knowledge through attention modulation. Extensive experiments show that AAI enhances logical reasoning performance across diverse benchmarks and model architectures, while incurring negligible additional computational overhead. Code is available at https://github.com/phuongnm94/aai_for_logical_reasoning.
- Abstract(参考訳): LLMによる現代的な論理的推論は、主に複雑な対話的フレームワークを用いて、慎重に設計されたプロンプトを通じて解決されたサブタスクに推論プロセスを分解するか、あるいはその強力な論理的構造を利用するために外部リソース(例えばシンボリック・ソルバ)を必要とする。
インタラクティブなアプローチはさらなるオーバーヘッドをもたらすが、ハイブリッドなアプローチはスケーラビリティを制限する外部コンポーネントに依存している。
非インタラクティブなエンドツーエンドフレームワークは、モデル自体に推論が現れることを可能にする -- 外部リソースなしで分析性を保持しながら、一般化を改善します。
本研究では,タスク推論のための非インタラクティブなエンドツーエンドフレームワークを提案する。
本研究は,数発のプロンプトに構造情報を導入することで,論理的推論演算子に整合したパターンのアテンションヘッドのサブセットを活性化することを示す。
この知見に基づいて,論理パターンによって識別された選択された頭部の注意点を重み付けする推論時間介入法である注意意識介入(AAI)を提案する。
AAIは、注意調整を通じて事前の知識を活用するためのモデルの推論を効果的に制御する方法を提供する。
大規模な実験により、AAIは様々なベンチマークやモデルアーキテクチャにまたがる論理的推論性能を高めつつ、無視できない計算オーバーヘッドを発生させることが示された。
コードはhttps://github.com/phuongnm94/aai_for_logical_reasoningで公開されている。
関連論文リスト
- ActivationReasoning: Logical Reasoning in Latent Activation Spaces [43.17973499652433]
大きな言語モデル (LLM) は、流動的なテキストを生成するのに優れているが、内部の推論は不透明で制御が難しいままである。
LLMの潜在空間に明示的な論理的推論を組み込むフレームワークである ActivationReasoning (AR) を導入する。
ARは推論の複雑さで堅牢にスケールし、抽象的でコンテキストに敏感なタスクに一般化し、モデルバックボーン間で転送する。
論文 参考訳(メタデータ) (2025-10-21T00:21:04Z) - Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Thinking About Thinking: SAGE-nano's Inverse Reasoning for Self-Aware Language Models [0.0]
大規模言語モデル(LLM)は、Chain-of-Thoughtプロンプトで複雑な推論タスクを解く際、顕著な能力を示した。
我々は, LLM を分解し, 自己の推論連鎖をポストホックで説明できる新しいパラダイムであるtextbfinverse reasoning を紹介した。
私たちの研究は、透明なAIシステムのための新たな道を作り、AIの安全性、教育、科学的発見において大きなギャップを埋めます。
論文 参考訳(メタデータ) (2025-06-30T09:53:41Z) - KAG-Thinker: Interactive Thinking and Deep Reasoning in LLMs via Knowledge-Augmented Generation [35.555200530999365]
我々は、KAG-Thinkerを導入し、KAGをマルチターン対話型思考と、専用パラメータライト大言語モデル(LLM)を利用した深い推論フレームワークにアップグレードする。
提案手法は,複雑な問題を解くための構造化思考プロセスを構築し,推論過程の論理的一貫性と文脈的整合性を高める。
論文 参考訳(メタデータ) (2025-06-21T14:58:53Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Efficient Inference for Large Reasoning Models: A Survey [74.17203483365171]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - From Chaos to Order: The Atomic Reasoner Framework for Fine-grained Reasoning in Large Language Models [46.02816479205161]
我々は,微粒な推論を可能にする認知推論戦略であるtextbfAtomic Reasoner(textbfAR)を提案する。
ARは推論プロセスを原子認知単位に分解し、認知的ルーティング機構を使用する。
結果より, 完全解探索の計算負担を伴わないARの優れた推論能力を示す。
論文 参考訳(メタデータ) (2025-03-20T08:34:53Z) - Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools [19.70178343422698]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。
私たちのフレームワークにおける重要な革新はMind-Mapエージェントです。
DeepSeek-R1にデプロイすると、パブリックモデル間で新しいSOTA(State-of-the-art)を実現する。
論文 参考訳(メタデータ) (2025-02-07T04:08:46Z) - Logic Agent: Enhancing Validity with Logic Rule Invocation [24.815341366820753]
Chain-of-Thoughtプロンプトは、推論タスク中に言語モデルの推論能力を増強するための重要なテクニックとして現れている。
本稿では,大規模言語モデルにおける推論プロセスの有効性向上を目的としたエージェントベースのフレームワークであるLogic Agent(LA)を紹介する。
論文 参考訳(メタデータ) (2024-04-28T10:02:28Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - LogiGAN: Learning Logical Reasoning via Adversarial Pre-training [58.11043285534766]
本稿では,言語モデルの論理的推論能力を向上させるために,教師なしの対人事前学習フレームワークLogiGANを提案する。
人間の学習におけるリフレクティブ思考の促進効果に着想を得て,逆生成検証アーキテクチャを用いて学習思考過程をシミュレートする。
LogiGANで事前トレーニングされたベースモデルと大規模言語モデルの両方で、12のデータセットで明らかなパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2022-05-18T08:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。