論文の概要: ReEXplore: Improving MLLMs for Embodied Exploration with Contextualized Retrospective Experience Replay
- arxiv url: http://arxiv.org/abs/2511.19033v1
- Date: Mon, 24 Nov 2025 12:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.189013
- Title: ReEXplore: Improving MLLMs for Embodied Exploration with Contextualized Retrospective Experience Replay
- Title(参考訳): ReEXplore: コンテキスト化されたレトロスペクティブ体験リプレイによる身体的探索のためのMLLMの改善
- Authors: Gengyuan Zhang, Mingcong Ding, Jingpei Wu, Ruotong Liao, Volker Tresp,
- Abstract要約: エンボディード・サーベイ(Embodied Exploring)は、エンボディード・エージェントがきめ細かな認識と知識に富んだ意思決定を持つ必要があるターゲット駆動のプロセスである。
近年のMLLMは知覚力や推論能力の強いため探索に活用されているが,MLLMをベースとしたエンボディエージェントは新たな環境の探索に最適である。
ReEXploreは、蒸留された抽象的な経験を推論時に注入し、階層的なフロンティア選択を行い、フロンティアのランクを粗い決定に分解する。
- 参考スコア(独自算出の注目度): 22.725471788115403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied exploration is a target-driven process that requires embodied agents to possess fine-grained perception and knowledge-enhanced decision making. While recent attempts leverage MLLMs for exploration due to their strong perceptual and reasoning abilities, we find that MLLM-based embodied agents remain suboptimal in exploring new environments: (i) they rely on profound but stale pre-trained knowledge, (ii) training-based approaches such as imitation learning or reinforcement learning are expensive for long-horizon tasks with sparse outcome rewards, and (iii) frontier-based exploration yields a large, visually nuanced action space that is difficult for MLLMs to make reliable decisions. We address these challenges with ReEXplore, a training-free framework that performs retrospective experience replay to inject distilled, abstract experience at inference time, and hierarchical frontier selection to decompose frontier ranking into coarse-to-fine decisions. Our approach enables robust, traceable, and efficient exploration. Across multiple embodied exploration benchmarks, ReEXplore yields great improvements over strong MLLM baselines, up to 3x higher performance in both success rate and in navigation efficiency under open-source backbones.
- Abstract(参考訳): エンボディード・サーベイ(Embodied Exploring)は、エンボディード・エージェントがきめ細かな認識と知識に富んだ意思決定を持つ必要があるターゲット駆動のプロセスである。
最近の試みでは、MLLMの強い知覚力と推論能力により探索に活用されているが、MLLMをベースとしたエンボディエージェントは、新しい環境の探索に最適である。
(i)深いが、訓練済みの知識に頼っている。
(II)模擬学習や強化学習のような訓練に基づくアプローチは、疎度な成果報酬を伴う長期作業には高価である。
第三に、フロンティアに基づく探索は、MLLMが信頼できる決定を下すのが困難である、大きく、視覚的に不明瞭な行動空間をもたらす。
ReEXploreは、蒸留された抽象的な経験を推論時に注入し、階層的なフロンティア選択を行い、フロンティアのランクを粗い決定に分解する。
私たちのアプローチは、堅牢でトレーサブルで効率的な探索を可能にします。
ReEXploreは複数の実施した調査ベンチマークを通じて、強力なMLLMベースラインよりも大幅に改善され、成功率とオープンソースのバックボーン下でのナビゲーション効率の両方で最大3倍のパフォーマンスを実現している。
関連論文リスト
- Guiding Exploration in Reinforcement Learning Through LLM-Augmented Observations [0.0]
大規模言語モデル(LLM)は、手続き的知識とテキスト事前学習による推論能力を持っている。
拡張観測空間を通してLLM生成アクションレコメンデーションを提供するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:54:31Z) - Dual-Scale World Models for LLM Agents Towards Hard-Exploration Problems [41.790981479496644]
LLMベースのエージェントは有望な進歩を見てきたが、それでも探索を通じて新しい知識を学ぶことを必要とする「ハード探索」のタスクに限られている。
本稿では,グローバルスケールにおける高価値発見の軌道フロンティアを維持しつつ,デュアルスケールの世界モデルを活用した新たなアプローチであるGLoWを提案する。
我々はテキストベースのゲームのJerichoベンチマークスイートに取り組み、GLoWはLLMベースのアプローチのための新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-28T23:19:27Z) - Reasoning with Exploration: An Entropy Perspective [111.0659496612249]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [39.460202867967006]
そこで,本研究では,高密度報酬を付与し,RLに基づくパラダイムにおける探索を増幅するために,固有モチベーションギルド探索比N meThOd foR LLM推論(i-MENTOR)を提案する。
4つの公開データセットにわたる実験は、i-MENTORの有効性を示し、AIME 2024で22.23%改善した。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - ExpeL: LLM Agents Are Experiential Learners [57.13685954854463]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。