論文の概要: Dual-Scale World Models for LLM Agents Towards Hard-Exploration Problems
- arxiv url: http://arxiv.org/abs/2509.24116v2
- Date: Tue, 30 Sep 2025 02:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.404581
- Title: Dual-Scale World Models for LLM Agents Towards Hard-Exploration Problems
- Title(参考訳): ハード探索問題へのLLMエージェントの2次元世界モデル
- Authors: Minsoo Kim, Seung-won Hwang,
- Abstract要約: LLMベースのエージェントは有望な進歩を見てきたが、それでも探索を通じて新しい知識を学ぶことを必要とする「ハード探索」のタスクに限られている。
本稿では,グローバルスケールにおける高価値発見の軌道フロンティアを維持しつつ,デュアルスケールの世界モデルを活用した新たなアプローチであるGLoWを提案する。
我々はテキストベースのゲームのJerichoベンチマークスイートに取り組み、GLoWはLLMベースのアプローチのための新しい最先端パフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 41.790981479496644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents have seen promising advances, yet they are still limited in "hard-exploration" tasks requiring learning new knowledge through exploration. We present GLoW, a novel approach leveraging dual-scale world models, maintaining a trajectory frontier of high-value discoveries at the global scale, while learning from local trial-and-error in exploration through a Multi-path Advantage Reflection mechanism which infers advantage-based progress signals to guide exploration. To evaluate our framework for hard-exploration, we tackle the Jericho benchmark suite of text-based games, where GLoW achieves a new state-of-theart performance for LLM-based approaches. Compared to state-of-the-art RLbased methods, our approach achieves comparable performance while requiring 100-800x fewer environment interactions.
- Abstract(参考訳): LLMベースのエージェントは有望な進歩を見てきたが、それでも探索を通じて新しい知識を学ぶことを必要とする「ハード探索」のタスクに限られている。
本稿では,グローバルスケールで高価値発見の軌道フロンティアを維持しつつ,多経路アドバンテージ・リフレクション機構を用いて探索における局所的な試行錯誤から学習しながら,二次元世界モデルを活用した新たなアプローチであるGLoWを提案する。
ハード探索のためのフレームワークを評価するために,GLoW が LLM ベースのアプローチで新たな最先端性能を実現するテキストベースのゲームである Jericho ベンチマークスイートに挑戦する。
現状のRL法と比較すると,100~800倍の環境相互作用が要求されるのに対し,本手法は同等の性能を実現する。
関連論文リスト
- Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches [2.9165586612027234]
VLM指導は早期サンプル効率を著しく向上させることができることを示す。
本結果は,エンド・ツー・エンド・エンド・コントロールではなく,基礎モデルを用いて探索をガイドする可能性や制約を明らかにするものである。
論文 参考訳(メタデータ) (2025-09-24T09:25:15Z) - VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction [14.873988791609127]
VIR-Benchは200本の旅行ビデオからなるベンチマークで、反復的な再構築を困難な課題とする。
実験結果から,プロプライエタリなMLLMを含む最先端のMLLMは高いスコア獲得に苦慮していることが明らかとなった。
我々は、旅行計画エージェントのプロトタイプを開発するための詳細なケーススタディを実施している。
論文 参考訳(メタデータ) (2025-09-23T13:46:31Z) - Sample Efficient Reinforcement Learning via Large Vision Language Model Distillation [19.48826538310603]
大規模視覚言語モデル(LVLM)からより効率的な強化学習エージェントへ知識を抽出するフレームワークであるLVLM to Policy(LVLM2P)を紹介する。
提案手法はLVLMを教師として活用し,RLエージェントが収集した軌跡に基づく指導行動を提供する。
LVLM2Pは,ベースラインRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-05-16T13:15:54Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
高次元オープンワールドにおける視覚的強化学習エージェントの訓練は、大きな課題を呈している。
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:17:30Z) - World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。
人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文 参考訳(メタデータ) (2024-06-11T15:49:08Z) - LLaMA Rider: Spurring Large Language Models to Explore the Open World [36.261626047323695]
環境知識を継続的に獲得し、オープンな世界で適応する大規模言語モデルの能力は、いまだに不確実である。
オープンな世界を探索し,経験を収集し,課題解決能力の向上を学ぶために,LLMを刺激するアプローチを提案する。
オープンエンドのサンドボックス世界であるMinecraftでの評価により,LLaMA-Rider による環境探索における LLM の効率向上が実証された。
論文 参考訳(メタデータ) (2023-10-13T07:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。