論文の概要: Latent Action Reparameterization for Efficient Agent Inference
- arxiv url: http://arxiv.org/abs/2605.18597v2
- Date: Tue, 19 May 2026 03:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.646627
- Title: Latent Action Reparameterization for Efficient Agent Inference
- Title(参考訳): 効率的なエージェント推論のための潜時行動パラメータ化
- Authors: Wenhao Huang, Qingwen Zeng, Qiyue Chen, Zijie Guo, Yu Sun, Cheng Yang, Siru Ouyang, Jiri Gesi, Fang Wu, Jiayi Zhang, Huaming Chen, Bang Liu, Xiangru Tang, Chenglin Wu,
- Abstract要約: 本稿では,複数のステップのセマンティックな振る舞いに対応する,コンパクトな潜在行動空間を学習するフレームワークを提案する。
手作りのマクロや階層型コントローラとは異なり、潜在動作はエージェントの軌跡から学習され、モデルに直接統合される。
- 参考スコア(独自算出の注目度): 56.42014061367112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents often rely on long sequences of low-level textual actions, resulting in large effective decision horizons and high inference cost. While prior work has focused on improving inference efficiency through system-level optimizations or prompt engineering, we argue that a key bottleneck lies in the representation of the action space itself. We propose Latent Action Reparameterization (LAR), a framework that learns a compact latent action space in which each latent action corresponds to a multi-step semantic behavior. By reparameterizing agent actions into latent units, LAR enables decision making over a shorter effective horizon while preserving the expressiveness of the original action space. Unlike hand-crafted macros or hierarchical controllers, latent actions are learned from agent trajectories and integrated directly into the model, allowing both planning and execution to operate over abstract action representations. Across a range of LLM-based agent benchmarks, LAR significantly reduces the effective action horizon and improves inference efficiency under fixed compute budgets. As a consequence, our approach achieves substantial reductions in action tokens and corresponding wall-clock inference time, while maintaining or improving task success rates. These results suggest that action representation learning is a critical and underexplored factor in scaling efficient LLM agent inference, complementary to advances in model architecture and hardware.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、しばしば低レベルのテキストアクションの長いシーケンスに依存し、大きな効果的な決定の地平線と高い推論コストをもたらす。
これまでの作業では、システムレベルの最適化やプロンプトエンジニアリングによる推論効率の改善に重点を置いてきたが、重要なボトルネックはアクション空間自体の表現にある、と我々は論じている。
本稿では,複数のステップのセマンティックな振る舞いに対応する,コンパクトな潜時行動空間を学習するフレームワークであるLatent Action Reparameterization(LAR)を提案する。
エージェントアクションを潜時単位に再パラメータ化することにより、LARは元のアクション空間の表現性を保ちながら、より短い有効地平線上の決定を可能にする。
手作りのマクロや階層型コントローラとは異なり、潜在アクションはエージェントの軌跡から学習され、モデルに直接統合され、計画と実行の両方が抽象的なアクション表現を介して操作できる。
LLMベースのエージェントベンチマークの範囲で、LARは有効なアクション水平線を著しく削減し、固定された計算予算下での推論効率を向上させる。
その結果,タスク成功率の維持や改善を図りながら,アクショントークンとそれに対応するウォールタイム推定時間の大幅な削減を実現している。
これらの結果から, 行動表現学習は, モデルアーキテクチャやハードウェアの進歩を補完する, 効率的なLLMエージェント推論のスケーリングにおいて, 重要かつ過小評価された要因であることが示唆された。
関連論文リスト
- PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - DEAS: DEtached value learning with Action Sequence for Scalable Offline RL [46.40818333031899]
Action Sequence(DEAS)は、アクションシーケンスをバリュー学習に活用する、シンプルだが効果的なオフラインRLフレームワークである。
DEASはOGBenchの複雑な長期タスクのベースラインを一貫して上回る。
大規模ビジョン・ランゲージ・アクションモデルの性能向上に応用できる。
論文 参考訳(メタデータ) (2025-10-09T03:11:09Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [54.48979740613828]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models [37.476241509187304]
大規模言語モデル(LLM)は、広範囲なデータに対する事前学習を通じて、優れたパフォーマンスを達成する。
基本的なメカニズムにおける解釈可能性の欠如は、特定のアプリケーションに対してLLMを効果的に操る能力を制限する。
本稿では,パラメータ効率の優れた微調整法に基づく効率的な選択的層干渉法を提案する。
論文 参考訳(メタデータ) (2024-10-23T09:40:15Z) - GLANCE: Global Actions in a Nutshell for Counterfactual Explainability [10.25011737760687]
2つのアルゴリズムからなる多目的かつ適応的なフレームワークであるGLANCEを紹介する。
C-GLANCEは、特徴空間と反現実的アクションの空間の両方を考慮するクラスタリングアプローチを採用している。
T-GLANCEは柔軟性を高めるための追加機能を提供する。
論文 参考訳(メタデータ) (2024-05-29T09:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。