論文の概要: Do Agents Think Deeper? A Mechanistic Investigation of Layer-Wise Dynamics in Sequential Planning
- arxiv url: http://arxiv.org/abs/2605.27935v1
- Date: Wed, 27 May 2026 04:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.740523
- Title: Do Agents Think Deeper? A Mechanistic Investigation of Layer-Wise Dynamics in Sequential Planning
- Title(参考訳): エージェントはより深く考えるか? シークエンシャルプランニングにおけるレイヤーワイズダイナミクスの力学的検討
- Authors: Zhenyu Cui, Xiangzhong Luo,
- Abstract要約: 大規模言語モデル(LLM)は、標準のシングルターンタスクでは、その深さを非効率に利用することができる。
エージェント推論は静的タスクとは異なる深度プロファイルを示すことを示す。
- 参考スコア(独自算出の注目度): 6.5668779922726666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent mechanistic studies suggest that large language models (LLMs) may utilize their depth inefficiently in standard single-turn tasks. Whether this still holds in autonomous agent settings, where models must perform multi-turn planning, tool use, and iterative state updates, remains unclear. We study this question through a systematic layer-wise analysis of complete user-agent trajectories spanning three domains: Deep Research, Code Generation, and Tabular Processing. Using residual stream probes, causal layer-skipping interventions, and effective-depth measurements, we show that agentic reasoning exhibits a distinct depth profile from static tasks. As trajectories unfold, models progressively recruit more and deeper layers, with stronger long-range inter-layer dependencies emerging in later turns. At the same time, residual updates become increasingly correction-dominant, indicating a shift from stable feature accumulation toward repeated recalibration. Effective-depth analysis further reveals a substantial construction-refinement gap: semantic direction often forms relatively early, while deep layers remain necessary for stabilizing final outputs. Across model families, this gap is pronounced in Qwen and Minimax, whereas GLM shows a more domain-dependent depth allocation pattern. These results provide mechanistic evidence that autonomous LLM agents allocate depth adaptively as reasoning complexity grows.
- Abstract(参考訳): 近年の機械学的な研究は、大きな言語モデル(LLM)が標準のシングルターンタスクにおいて、その深さを非効率に利用できることを示唆している。
モデルがマルチターン計画、ツールの使用、反復的な状態更新を実行する必要がある自律エージェント設定で、これがまだ維持されているかどうかは不明だ。
本稿では,Deep Research, Code Generation, Tabular Processingという3つの領域にまたがる完全なユーザ・エージェント・トラジェクトリの体系的階層的解析を通して,この問題を考察する。
残留ストリームプローブ,因果層スキッピング介入,有効深度測定を用いて,エージェント推論が静的タスクと異なる深度プロファイルを示すことを示す。
トラジェクトリが展開するにつれて、モデルが徐々に、より深いレイヤを募集し、その後、より強力な長距離層間の依存関係が出現する。
同時に、残余更新は徐々に修正優位となり、安定した特徴蓄積から繰り返される再校正への移行を示している。
意味的な方向はしばしば比較的早く形成され、深い層は最終的な出力を安定化するのに必要である。
モデルファミリ全体では、このギャップはQwenとMinimaxで発音されるが、GLMはよりドメイン依存の深さ割り当てパターンを示している。
これらの結果は、自律LLMエージェントが推論複雑性が増大するにつれて、深さを適応的に割り当てる機構的な証拠を与える。
関連論文リスト
- Improving Coherence and Persistence in Agentic AI for System Optimization [9.443037059325086]
Engramは、反復的にメカニズムを設計、テスト、分析する一連のエージェントを探索する。
本研究では,マルチクラウドマルチキャスト推論,LLM要求ルーティング,自然言語クエリを用いたデータベースにおけるKVキャッシュ再利用の最適化など,さまざまな領域において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2026-03-22T17:04:50Z) - Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - From Words to Amino Acids: Does the Curse of Depth Persist? [41.90462432884248]
そこで本研究では,モデルファミリとスケールの6つのポピュラーなタンパク質言語モデル (PLM) の深度解析を行った。
大規模言語モデル(LLM)における事前発見を拡張する一貫した深度依存パターンを観察する。
以上の結果から, PLMは深度非効率性を示し, より深度効率のよいアーキテクチャやトレーニング手法の今後の研究を動機付けていると考えられる。
論文 参考訳(メタデータ) (2026-02-25T10:06:12Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Large Language Models as Discounted Bayesian Filters [14.164508061248775]
大規模言語モデル(LLM)におけるオンライン推論を評価するためのベイズフィルタリングフレームワークを提案する。
LLMの信念更新はベイズ的後部と似ているが, モデル固有割引係数が1より小さい指数的忘れフィルタにより, より正確に特徴付けられる。
固有の先入観はしばしば誤解されるが、更新メカニズム自体は構造化され原則化されたままである。
論文 参考訳(メタデータ) (2025-12-20T19:56:39Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。
LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。
従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文 参考訳(メタデータ) (2025-05-28T04:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。