論文の概要: ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.18571v1
- Date: Sun, 21 Dec 2025 02:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.402418
- Title: ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning
- Title(参考訳): ESearch-R1:強化学習による対話型身体検索のためのコスト対応MLLMエージェントの学習
- Authors: Weijie Zhou, Xuangtang Xiong, Ye Tian, Lijun Yue, Xinyu Wu, Wei Li, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang, Zhengyou Zhang,
- Abstract要約: ESearch-R1はコスト認識型推論フレームワークである。
対話型対話(Ask)、エピソードメモリ検索(GetMemory)、物理ナビゲーション(Navigate)を単一の決定プロセスに統合する。
総運用コストを約50%削減し、タスク成功率を向上させる。
- 参考スコア(独自算出の注目度): 40.2017873619555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have empowered embodied agents with remarkable capabilities in planning and reasoning. However, when facing ambiguous natural language instructions (e.g., "fetch the tool" in a cluttered room), current agents often fail to balance the high cost of physical exploration against the cognitive cost of human interaction. They typically treat disambiguation as a passive perception problem, lacking the strategic reasoning to minimize total task execution costs. To bridge this gap, we propose ESearch-R1, a cost-aware embodied reasoning framework that unifies interactive dialogue (Ask), episodic memory retrieval (GetMemory), and physical navigation (Navigate) into a single decision process. We introduce HC-GRPO (Heterogeneous Cost-Aware Group Relative Policy Optimization). Unlike traditional PPO which relies on a separate value critic, HC-GRPO optimizes the MLLM by sampling groups of reasoning trajectories and reinforcing those that achieve the optimal trade-off between information gain and heterogeneous costs (e.g., navigate time, and human attention). Extensive experiments in AI2-THOR demonstrate that ESearch-R1 significantly outperforms standard ReAct-based agents. It improves task success rates while reducing total operational costs by approximately 50\%, validating the effectiveness of GRPO in aligning MLLM agents with physical world constraints.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、計画と推論に優れた能力を持つエンボディエージェントである。
しかし、あいまいな自然言語命令(例えば、散らかった部屋で「道具を叩く」など)に直面している場合、現在のエージェントは、人間の相互作用の認知コストに対する身体的探索の高コストのバランスを取れないことが多い。
彼らは通常、曖昧さを受動的知覚問題として扱い、全体のタスク実行コストを最小限に抑える戦略的理由を欠いている。
このギャップを埋めるために、対話型対話(Ask)、エピソードメモリ検索(GetMemory)、物理ナビゲーション(Navigate)を単一の意思決定プロセスに統合するコスト対応の具体的推論フレームワークであるESearch-R1を提案する。
HC-GRPO (Heterogeneous Cost-Aware Group Relative Policy Optimization)を紹介する。
従来のPPOとは異なり、HC-GRPOは情報ゲインと不均一なコスト(例えば、ナビゲート時間、人間の注意)の最適なトレードオフを達成するための推論軌道のグループをサンプリングし、MLLMを最適化する。
AI2-THORにおける大規模な実験により、ESearch-R1は標準のReActエージェントよりも大幅に優れていた。
総運用コストを約50%削減しつつタスク成功率を向上し、MLLMエージェントと物理世界制約を整合させるGRPOの有効性を検証する。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management [2.582081036460148]
LLM(Large Language Model)ベースのエージェントは、反復的推論、探索、ツール使用によって複雑なタスクを解決する。
本稿では,SWE-bench Verified上でのSWE-agentにおけるこれらのアプローチの体系的比較について述べる。
簡易な環境監視マスキング戦略は,LLM要約の解解率をわずかに上回りながら,原材料と比較してコストを半減することがわかった。
論文 参考訳(メタデータ) (2025-08-29T09:02:35Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively [13.40488551654639]
本稿では,検索戦略の費用対効果を評価するために3E基準を導入する。
本稿では,既存の検索戦略とシームレスに統合するプラグイン・アンド・プレイ・フレームワークであるSpeculative Reward Model (SRM)を提案する。
実験の結果,RMは,有効性を保ちながら,従来の検索フレームワークの1/10までコストを削減できることがわかった。
論文 参考訳(メタデータ) (2025-05-31T05:32:12Z) - The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。
我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文 参考訳(メタデータ) (2025-05-23T11:40:58Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。