論文の概要: Expanding the Action Space of LLMs to Reason Beyond Language
- arxiv url: http://arxiv.org/abs/2510.07581v1
- Date: Wed, 08 Oct 2025 21:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.752942
- Title: Expanding the Action Space of LLMs to Reason Beyond Language
- Title(参考訳): LLMのアクションスペースを言語を越えた推論に拡張する
- Authors: Zhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson,
- Abstract要約: 大規模言語モデル(LLM)は自然言語における強力な推論である。
彼らの行動は通常、語彙トークンの発行に限られる。
これは、推論と制御の義務の両方でモデルの言語をオーバーロードする。
- 参考スコア(独自算出の注目度): 17.24378705018116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are powerful reasoners in natural language, but their actions are typically confined to outputting vocabulary tokens. As a result, interactions with external environments -- such as symbolic operators or simulators -- must be expressed through text in predefined formats, parsed, and routed to external interfaces. This overloads the model's language with both reasoning and control duties, and requires a hand-crafted parser, external to the LLM. To address this, we decouple environment interactions from language by internalizing them in an Expanded Action space (ExpA), beyond the vocabulary. The model starts reasoning in the default language environment, but may trigger routing actions and switch to an external environment at any time. From there, the model can only invoke environment-specific actions, receive feedback from the environment, and potentially route back to language as a result. To promote effective exploration of the expanded action space and new environments, we introduce ExpA Reinforcement Learning (EARL) with counterfactual policy optimization. On tasks requiring multi-turn interactions and contingent planning, EARL outperforms strong baselines with vocabulary-constrained actions. It performs robustly across calculator-based multi-task learning and, in the partially observed sorting problem, achieves perfect Sort-4 accuracy while self-discovering an efficient algorithm competitive with classical designs.
- Abstract(参考訳): 大きな言語モデル(LLM)は自然言語の強力な推論子であるが、その行動は通常語彙トークンの出力に限られる。
その結果、シンボル演算子やシミュレータといった外部環境とのインタラクションは、事前に定義されたフォーマットでテキストで表現され、解析され、外部インターフェースにルーティングされなければならない。
これにより、モデル言語を推論と制御の両方の義務でオーバーロードし、LLMの外にある手作りのパーサーを必要とする。
これを解決するために、我々は環境相互作用を言語から切り離し、語彙を超えてExpA(Expanded Action space)に内部化します。
モデルはデフォルトの言語環境で推論を始めますが、ルーティングアクションをトリガーし、いつでも外部環境に切り替えることができます。
そこからは、モデルが環境固有のアクションのみを起動し、環境からのフィードバックを受け取り、結果として言語にルートバックする可能性がある。
拡張された行動空間と新しい環境の効率的な探索を促進するために,実証強化学習(EARL)を導入した。
マルチターンインタラクションと継続計画を必要とするタスクにおいて、EARLは語彙制約されたアクションで強いベースラインを上回ります。
計算機ベースのマルチタスク学習で頑健に動作し、部分的に観察されたソート4の精度を達成し、古典的設計と競合する効率的なアルゴリズムを自己発見する。
関連論文リスト
- CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity [23.77040677368575]
我々は,潜在的にあいまいな自然言語によって指定されたタスクを達成できる,新しいロボット操作フレームワークを導入する。
このフレームワークはVLM(Vision-Language Model)を使用して、自然言語命令の抽象概念を解釈する。
本稿では,言語あいまいさ,コンタクトリッチな操作,多目的インタラクションといった課題に対して,アプローチが優れていることを示す。
論文 参考訳(メタデータ) (2025-06-19T23:42:03Z) - Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment [18.256529559741075]
大きな言語モデル(LLM)はエージェントシステムのキーコンポーネントとして機能し、それらの常識的な知識は、位置や具現化されたアクションのための言語ベースのプランナーとしての性能に大きく影響する。
LLMのインクリメンタル学習(環境からのフィードバックに基づく)を評価し,テキストベースの環境を用いてコンテキスト内学習能力を制御する。
その結果、より大きな商用モデルはオープンウェイトに比べて性能がかなり低いが、ほとんどのモデルは合成語実験に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-17T12:20:39Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity [0.0]
品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。
本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。
また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-25T10:00:06Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。