論文の概要: The Cognitive Bandwidth Bottleneck: Shifting Long-Horizon Agent from Planning with Actions to Planning with Schemas
- arxiv url: http://arxiv.org/abs/2510.07091v1
- Date: Wed, 08 Oct 2025 14:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.571139
- Title: The Cognitive Bandwidth Bottleneck: Shifting Long-Horizon Agent from Planning with Actions to Planning with Schemas
- Title(参考訳): 認知帯域ボトルネック--行動を伴う計画からスキーマによる計画へ
- Authors: Baixuan Xu, Tianshi Zheng, Zhaowei Wang, Hong Ting Tsang, Weiqi Wang, Tianqing Fang, Yangqiu Song,
- Abstract要約: 本稿では2つの異なる行動表現の有効性を体系的に研究する。
本稿では,その違いを質的に理解するための概念的枠組みとして,認知的帯域幅の観点を提案する。
より有能なPwSエージェントを構築するための実用的なガイドを提供する。
- 参考スコア(独自算出の注目度): 56.62286434195321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling LLMs to effectively operate long-horizon task which requires long-term planning and multiple interactions is essential for open-world autonomy. Conventional methods adopt planning with actions where a executable action list would be provided as reference. However, this action representation choice would be impractical when the environment action space is combinatorial exploded (e.g., open-ended real world). This naturally leads to a question: As environmental action space scales, what is the optimal action representation for long-horizon agents? In this paper, we systematically study the effectiveness of two different action representations. The first one is conventional planning with actions (PwA) which is predominantly adopted for its effectiveness on existing benchmarks. The other one is planning with schemas (PwS) which instantiate an action schema into action lists (e.g., "move [OBJ] to [OBJ]" -> "move apple to desk") to ensure concise action space and reliable scalability. This alternative is motivated by its alignment with human cognition and its compliance with environment-imposed action format restriction. We propose cognitive bandwidth perspective as a conceptual framework to qualitatively understand the differences between these two action representations and empirically observe a representation-choice inflection point between ALFWorld (~35 actions) and SciWorld (~500 actions), which serve as evidence of the need for scalable representations. We further conduct controlled experiments to study how the location of this inflection point interacts with different model capacities: stronger planning proficiency shifts the inflection rightward, whereas better schema instantiation shifts it leftward. Finally, noting the suboptimal performance of PwS agents, we provide an actionable guide for building more capable PwS agents for better scalable autonomy.
- Abstract(参考訳): 長期計画と複数の対話を必要とする長期的タスクを効果的に運用するためのLLMの導入は、オープンワールドの自律性にとって不可欠である。
従来の手法では、実行可能なアクションリストが参照として提供されるアクションで計画を採用する。
しかし、このアクション表現の選択は、環境アクション空間が組合せ爆発した場合(例えば、オープン・エンド・リアル・ワールド)に非現実的となる。
環境活動空間がスケールするにつれて、ロングホライゾンエージェントの最適なアクション表現は何か?
本稿では,2つのアクション表現の有効性を体系的に検討する。
ひとつは従来のPwA(PwA)による計画で、既存のベンチマークの有効性に大きく影響している。
もう1つは、アクションスキーマをアクションリストにインスタンス化するスキーマ(PwS)を計画しています(例えば、"move [OBJ] to [OBJ]" -> "move apple to desk")。
この代替手段は、人間の認知との整合性、および環境に適応したアクションフォーマットの制約へのコンプライアンスによって動機付けられている。
本研究では,これらの2つの行動表現の違いを質的に理解し,ALFWorld(~35アクション)とSciWorld(~500アクション)の表現選択点を実証的に観察する概念的枠組みとして認知帯域幅の視点を提案する。
我々はさらに制御された実験を行い、この反射点の位置が異なるモデル能力とどのように相互作用するかを研究する。
最後に,PwSエージェントの最適性能に注目し,スケーラブルな自律性を実現するために,より優れたPwSエージェントを構築するための実用的なガイドを提供する。
関連論文リスト
- Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-04T18:33:27Z) - ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning [47.27336786187929]
視覚言語アクション(VLA)推論タスクでは、エージェントはマルチモーダル命令を解釈し、長期計画を実行し、動的環境で適応的に行動する必要がある。
既存のアプローチは通常、エンドツーエンドでVLAモデルをトレーニングし、明示的な推論なしに入力を直接アクションにマッピングする。
本稿では,高レベルの推論と低レベルのアクション実行を,強化された視覚的潜在計画を通じて橋渡しする,デュアルシステムフレームワークであるThinkActを提案する。
論文 参考訳(メタデータ) (2025-07-22T17:59:46Z) - DynaSaur: Large Language Agents Beyond Predefined Actions [126.98162266986554]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。
動作を動的に生成・構成できるLLMエージェントフレームワークを提案する。
このフレームワークでは、汎用プログラミング言語で書かれたプログラムを生成し実行することで、エージェントが環境と対話する。
論文 参考訳(メタデータ) (2024-11-04T02:08:59Z) - GLANCE: Global Actions in a Nutshell for Counterfactual Explainability [10.25011737760687]
2つのアルゴリズムからなる多目的かつ適応的なフレームワークであるGLANCEを紹介する。
C-GLANCEは、特徴空間と反現実的アクションの空間の両方を考慮するクラスタリングアプローチを採用している。
T-GLANCEは柔軟性を高めるための追加機能を提供する。
論文 参考訳(メタデータ) (2024-05-29T09:24:25Z) - Deep hybrid models: infer and plan in a dynamic world [0.0]
3つの特徴に基づいて離散的かつ連続的な処理を利用する能動的推論手法を提案する。
モデルが異なる条件下で提示された課題に対処できることが示される。
論文 参考訳(メタデータ) (2024-02-01T15:15:25Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。