論文の概要: Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP
- arxiv url: http://arxiv.org/abs/2605.16205v1
- Date: Fri, 15 May 2026 17:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.356427
- Title: Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP
- Title(参考訳): 文脈, 推論, 階層性:敵対的POMDPにおける複合LLMエージェント設計のコストパフォーマンスに関する研究
- Authors: Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman,
- Abstract要約: プログラム状態抽象化は、使用されるトークン当たりの最大のリターンを提供する。
階層をまたいだ議論ツールの配布は、階層のみに対するパフォーマンスを低下させる。
議論のない階層分解は、ほとんどのモデルにとって最高の絶対的な性能を達成する。
- 参考スコア(独自算出の注目度): 3.774094352572544
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deploying compound LLM agents in adversarial, partially observable sequential environments requires navigating several design dimensions: (1) what the agent sees, (2) how it reasons, and (3) how tasks are decomposed across components. Yet practitioners lack guidance on which design choices improve performance versus merely increase inference costs. We present a controlled study of compound LLM agent design in CybORG CAGE-2, a cyber defense environment modeled as a Partially Observable Markov Decision Process (POMDP). Reward is non-positive, so all configurations operate in a failure-mitigation mode. Our evaluation spans five model families, six models, and twelve configurations (3,475 episodes) with token-level cost accounting. We vary context representation (raw observations vs. a deterministic state-tracking layer with compressed history), deliberation (self-questioning, self-critique, and self-improvement tools, with optional chain-of-thought prompting), and hierarchical decomposition (monolithic ReAct vs. delegation to specialized sub-agents). We find that: (1) Programmatic state abstraction delivers the largest returns per token spent (RPTS), improving mean return by up to 76% over raw observations. (2) Distributing deliberation tools across a hierarchy degrades performance relative to hierarchy alone for all five model families, reaching up to 3.4$\times$ worse mean return while using 1.8-2.7$\times$ more tokens. We call this destructive pattern a deliberation cascade. (3) Hierarchical decomposition without deliberation achieves the best absolute performance for most models, and context engineering is generally more cost-effective than deliberation. These findings suggest a design principle for structured adversarial POMDPs: invest in programmatic infrastructure and clean task decomposition rather than deeper per-agent reasoning, as these strategies can interfere when combined.
- Abstract(参考訳): 逆順に部分的に観測可能な環境に複合LLMエージェントを配置するには、(1)エージェントが見ているもの、(2)原因、(3)コンポーネント間でタスクが分解される方法など、いくつかの設計次元をナビゲートする必要がある。
しかし実践者は、どの設計選択によってパフォーマンスが向上するか、あるいは単に推論コストが上昇するかのガイダンスを欠いている。
本稿では,部分観測可能なマルコフ決定プロセス (POMDP) としてモデル化されたサイバー防御環境であるCybORG CAGE-2における複合LLMエージェントの設計に関する制御研究について述べる。
Rewardは非陽性であるため、すべての構成はフェール軽減モードで動作する。
評価対象は5つのモデルファミリー,6つのモデル,12の構成(3,475エピソード)で,トークンレベルのコスト計算を行う。
我々は、文脈表現(歴史を圧縮した決定論的状態追跡層と比較して)、熟考(自問、自己批判、自己改善ツール、オプションのチェーン・オブ・プルーピングを含む)、階層分解(モノリシックなReAct vs. 専門的なサブエージェントへの委譲)など、様々である。
1) プログラム状態の抽象化は、トークン当たりの最大リターン(RPTS)を提供し、生の観測よりも平均リターンを最大76%改善します。
2) 階層にまたがる議論ツールの配布は、5つのモデルファミリーすべてに対して、階層のみと比較してパフォーマンスを低下させ、1.8-2.7$\times$以上のトークンを使用しながら、最大3.4$\times$ worse mean returnに達する。
私たちはこの破壊的なパターンを熟考のカスケードと呼んでいる。
(3)議論のない階層的分解は、ほとんどのモデルにとって最高の絶対的性能を達成する。
これらの知見は, プログラム的インフラとクリーンなタスク分解に投資することであり, これらの戦略が組み合わさると阻害される可能性があることを示唆している。
関連論文リスト
- ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement [37.27419953581617]
大きな言語モデル(LLM)は、しばしば潜伏する推論機能を利用することができない。
本稿では推論時間アライメントタスクとして推論誘発を扱うモジュラーフレームワークReQueRを提案する。
論文 参考訳(メタデータ) (2026-04-28T09:52:21Z) - Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization [3.579200789027982]
RLVR(Reinforcement fine-tuning with verible rewards)は、大きな視覚言語モデル(LVLM)にツールの使用や多段階推論などのエージェント機能を持たせるための強力なパラダイムとして登場した。
顕著な経験的成功にもかかわらず、特に視覚エージェント強化細管(Visual Agentic Reinforcement Fine-Tuning, Visual-ARFT)は、このパラダイムの理論的基盤は理解されていない。
EmphTool-Augmented Markov Decision Process (TA-MDP)を導入する。
論文 参考訳(メタデータ) (2026-04-21T17:21:08Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Experts are all you need: A Composable Framework for Large Language Model Inference [8.747592414164687]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて最先端の精度を達成した。
MoEは、パラメータや"専門家"のサブセットのみを活性化することによって、モデルキャパシティを計算から切り離すことで、このボトルネックを克服する。
論文 参考訳(メタデータ) (2025-11-28T08:00:16Z) - An Analysis of Architectural Impact on LLM-based Abstract Visual Reasoning: A Systematic Benchmark on RAVEN-FAIR [0.0]
GPT-4.1-Miniは全アーキテクチャで最高精度を達成した。
それぞれのモデルは、アーキテクチャ設計に対して異なる感度パターンを示し、推論の有効性がモデル固有のものであることを強調した。
論文 参考訳(メタデータ) (2025-11-14T22:50:22Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。