論文の概要: Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models
- arxiv url: http://arxiv.org/abs/2405.15143v2
- Date: Thu, 30 May 2024 06:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:05:24.806698
- Title: Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models
- Title(参考訳): Intelligent Go-Explore: 巨大ファンデーションモデルにふさわしい立場
- Authors: Cong Lu, Shengran Hu, Jeff Clune,
- Abstract要約: Go-Exploreは、ハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーである。
本稿では,従来の Go-Explore の範囲を大きく広げる Intelligent Go-Explore (IGE) を提案する。
IGEには人間のような能力があり、新しい状態がいかに面白く、あるいは有望であるかを直感的に識別する能力がある。
- 参考スコア(独自算出の注目度): 5.404186221463082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Go-Explore is a powerful family of algorithms designed to solve hard-exploration problems, built on the principle of archiving discovered states, and iteratively returning to and exploring from the most promising states. This approach has led to superhuman performance across a wide variety of challenging problems including Atari games and robotic control, but requires manually designing heuristics to guide exploration, which is time-consuming and infeasible in general. To resolve this, we propose Intelligent Go-Explore (IGE) which greatly extends the scope of the original Go-Explore by replacing these heuristics with the intelligence and internalized human notions of interestingness captured by giant foundation models (FMs). This provides IGE with a human-like ability to instinctively identify how interesting or promising any new state is (e.g. discovering new objects, locations, or behaviors), even in complex environments where heuristics are hard to define. Moreover, IGE offers the exciting and previously impossible opportunity to recognize and capitalize on serendipitous discoveries that cannot be predicted ahead of time. We evaluate IGE on a range of language-based tasks that require search and exploration. In Game of 24, a multistep mathematical reasoning problem, IGE reaches 100% success rate 70.8% faster than the best classic graph search baseline. Next, in BabyAI-Text, a challenging partially observable gridworld, IGE exceeds the previous SOTA with orders of magnitude fewer online samples. Finally, in TextWorld, we show the unique ability of IGE to succeed in settings requiring long-horizon exploration where prior SOTA FM agents like Reflexion completely fail. Overall, IGE combines the tremendous strengths of FMs and the powerful Go-Explore algorithm, opening up a new frontier of research into creating more generally capable agents with impressive exploration capabilities.
- Abstract(参考訳): Go-Exploreは、ハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーであり、発見された状態のアーカイブの原則に基づいて構築され、最も有望な状態から反復的に戻り、探索する。
このアプローチは、アタリゲームやロボット制御など、さまざまな課題において超人的なパフォーマンスをもたらしてきたが、探索をガイドするためには、手動でヒューリスティックを設計する必要がある。
そこで本研究では,これらのヒューリスティックスを,巨大基盤モデル(FM)が捉えた情報と内部的人間の概念に置き換えることで,本来のGo-Exploreの範囲を大きく広げる知能 Go-Explore(IGE)を提案する。
これによりIEGは、ヒューリスティックが定義が難しい複雑な環境であっても、新しい状態がいかに面白く、あるいは有望であるか(例えば、新しい物体、場所、行動を発見する)を本能的に識別する人間的な能力を提供する。
さらに、IGEは、事前に予測できないセレンディピティーな発見を認識し、収益化するための、エキサイティングで以前は不可能な機会を提供する。
IGEを検索と探索を必要とする言語ベースのタスクで評価する。
マルチステップの数学的推論問題であるGame of 24では、IEGは最高のグラフ検索ベースラインよりも100%成功率70.8%速く到達した。
次に、挑戦的な部分的に観測可能なグリッドワールドであるBabyAI-Textでは、IGEが以前のSOTAをはるかに少ないオンラインサンプルで上回っている。
最後に、TextWorldでは、従来のSOTA FMエージェントであるReflexionが完全に失敗する長期探査を必要とする設定でIGEが成功するユニークな能力を示す。
全体として、IGEはFMの強みと強力なGo-Exploreアルゴリズムを組み合わせることで、優れた探査能力を持つより一般的なエージェントを作るための新たな研究のフロンティアを開く。
関連論文リスト
- A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Time-Myopic Go-Explore: Learning A State Representation for the
Go-Explore Paradigm [0.5156484100374059]
時間的近接状態をクラスタリングする新しい時間的ミオピック状態表現を導入する。
手作り表現を使わずに、新規性を確実に推定する最初の学習状態表現を実証する。
本研究は,モンテズマレブンジュ,グラビタール,フロストビテ(アタリ)の硬い探査環境について評価した。
論文 参考訳(メタデータ) (2023-01-13T16:13:44Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - Cell-Free Latent Go-Explore [3.1868913341776106]
Latent Go-Explore (LGE)は、強化学習における探索のためのGo-Exploreパラダイムに基づくシンプルで一般的なアプローチである。
LGEは,潜在表現を学習するための任意の戦略と柔軟に組み合わせることができることを示す。
以上の結果から,LGE は Go-Explore よりも単純ではあるが,より堅牢であり,純粋な探索法では最先端のアルゴリズムよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-08-31T15:52:02Z) - When to Go, and When to Explore: The Benefit of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
目標達成後の探査を「後探査」と呼ぶ。
我々は,いつまで,いつまで,いつまで,いつまで,いつまでかかるかを適応的に決定する新しい手法を導入する。
論文 参考訳(メタデータ) (2022-03-29T16:50:12Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - First return, then explore [18.876005532689234]
Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。
Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。
目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。