Fugu-MT 論文翻訳(概要): Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models

論文の概要: Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models

arxiv url: http://arxiv.org/abs/2405.15143v3
Date: Tue, 03 Dec 2024 06:43:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:20.652438
Title: Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models
Title（参考訳）: Intelligent Go-Explore: 巨大ファンデーションモデルにふさわしい立場
Authors: Cong Lu, Shengran Hu, Jeff Clune,
Abstract要約: Go-Exploreは、ハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーである。本稿では,従来のGo-Exploreの範囲を大きく広げる,インテリジェントなGo-Exploreを提案する。 IGEには人間のような能力があり、新しい状態がいかに面白く、あるいは有望であるかを直感的に識別する能力がある。
参考スコア（独自算出の注目度）: 5.404186221463082
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Go-Explore is a powerful family of algorithms designed to solve hard-exploration problems built on the principle of archiving discovered states, and iteratively returning to and exploring from the most promising states. This approach has led to superhuman performance across a wide variety of challenging problems including Atari games and robotic control, but requires manually designing heuristics to guide exploration (i.e., determine which states to save and explore from, and what actions to consider next), which is time-consuming and infeasible in general. To resolve this, we propose Intelligent Go-Explore (IGE) which greatly extends the scope of the original Go-Explore by replacing these handcrafted heuristics with the intelligence and internalized human notions of interestingness captured by giant pretrained foundation models (FMs). This provides IGE with a human-like ability to instinctively identify how interesting or promising any new state is (e.g., discovering new objects, locations, or behaviors), even in complex environments where heuristics are hard to define. Moreover, IGE offers the exciting opportunity to recognize and capitalize on serendipitous discoveries-states encountered during exploration that are valuable in terms of exploration, yet where what makes them interesting was not anticipated by the human user. We evaluate our algorithm on a diverse range of language and vision-based tasks that require search and exploration. Across these tasks, IGE strongly exceeds classic reinforcement learning and graph search baselines, and also succeeds where prior state-of-the-art FM agents like Reflexion completely fail. Overall, Intelligent Go-Explore combines the tremendous strengths of FMs and the powerful Go-Explore algorithm, opening up a new frontier of research into creating more generally capable agents with impressive exploration capabilities.
Abstract（参考訳）: Go-Exploreは、発見された状態をアーカイブし、最も有望な状態から繰り返し戻って探索するという原則に基づいて構築されたハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーである。このアプローチは、アタリゲームやロボット制御など、様々な困難な問題において超人的なパフォーマンスをもたらしてきたが、探索をガイドするためには、手動でヒューリスティックを設計する必要がある(すなわち、どの状態から救い出すか、次に考えるべき行動を決定する)。そこで我々は,これらの手工芸のヒューリスティックを,巨大な事前学習基盤モデル(FM)が捉えた知性や内在化人間概念に置き換えることで,本来のGo-Exploreの範囲を大きく広げる知能 Go-Explore(IGE)を提案する。これによってIEGは、ヒューリスティックが定義が難しい複雑な環境であっても、新しい状態(例えば、新しいオブジェクト、場所、行動)がいかに面白く、あるいは有望であるかを本能的に識別する、人間的な能力を提供する。さらに、IGEは、探査の過程で遭遇したセレンディピティーな発見状態を認識し、収益化するためのエキサイティングな機会を提供する。我々は,探索と探索を必要とする多種多様な言語および視覚に基づくタスクに対して,我々のアルゴリズムを評価する。これらのタスク全体で、IGEは古典的な強化学習やグラフ検索ベースラインをはるかに上回り、Reflexionのような最先端のFMエージェントが完全に失敗するのにも成功している。全体として、Intelligent Go-ExploreはFMの強みと強力なGo-Exploreアルゴリズムを組み合わせることで、目覚ましい探査能力を備えたより一般的な能力を持つエージェントを作るための新たな研究のフロンティアを開く。

関連論文リスト

Unsupervised Skill Discovery through Skill Regions Differentiation [6.088346462603191]
教師なし強化学習(英語: Unsupervised Reinforcement Learning, RL)は、下流タスクの学習を加速できる多様な行動を発見することを目的としている。本稿では,他のスキルの探索領域からの1つのスキルの状態密度のずれを最大化する新しいスキル発見目標を提案する。また、学習したオートエンコーダに基づいて、コンパクトな潜在空間におけるカウントベースの探索に類似した本質的な報酬を定式化する。
論文参考訳（メタデータ） (2025-06-17T11:30:04Z)
ForesightNav: Learning Scene Imagination for Efficient Exploration [57.49417653636244]
人間の想像力と推論に触発された新しい探索戦略であるForesightNavを提案する。提案手法は,ロボットエージェントに,未探索領域の占有状況や意味的詳細などの文脈情報を予測する能力を備える。本研究では,Structured3Dデータセットを用いた想像力に基づくアプローチの有効性を検証し,シーン形状の予測において,正確な占有率予測と優れた性能を示す。
論文参考訳（メタデータ） (2025-04-22T17:38:38Z)
Intrinsically-Motivated Humans and Agents in Open-World Exploration [50.00331050937369]
複雑なオープンエンド環境で、大人、子供、AIエージェントを比較します。エントロピーとエンパワーメントだけが、人類の探査の進歩と一貫して正の相関関係にあることがわかった。
論文参考訳（メタデータ） (2025-03-31T00:09:00Z)
Adventurer: Exploration with BiGAN for Deep Reinforcement Learning [4.902161835372679]
複雑な観測のために, 状態の新規性を推定する上で, BiGANは良好に機能することを示す。この結果から,Adventureは,様々なベンチマークタスクにおいて,競争力のある結果をもたらすことがわかった。
論文参考訳（メタデータ） (2025-03-24T12:13:24Z)
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文参考訳（メタデータ） (2024-12-16T18:59:53Z)
A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。 50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文参考訳（メタデータ） (2024-03-21T08:54:56Z)
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文参考訳（メタデータ） (2023-05-25T17:59:49Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
Time-Myopic Go-Explore: Learning A State Representation for the Go-Explore Paradigm [0.5156484100374059]
時間的近接状態をクラスタリングする新しい時間的ミオピック状態表現を導入する。手作り表現を使わずに、新規性を確実に推定する最初の学習状態表現を実証する。本研究は,モンテズマレブンジュ,グラビタール,フロストビテ(アタリ)の硬い探査環境について評価した。
論文参考訳（メタデータ） (2023-01-13T16:13:44Z)
First Go, then Post-Explore: the Benefits of Post-Exploration in Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。 Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。目標達成後の探査を「後探査」と呼ぶ。
論文参考訳（メタデータ） (2022-12-06T18:56:47Z)
Cell-Free Latent Go-Explore [3.1868913341776106]
Latent Go-Explore (LGE)は、強化学習における探索のためのGo-Exploreパラダイムに基づくシンプルで一般的なアプローチである。 LGEは,潜在表現を学習するための任意の戦略と柔軟に組み合わせることができることを示す。以上の結果から,LGE は Go-Explore よりも単純ではあるが,より堅牢であり,純粋な探索法では最先端のアルゴリズムよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-08-31T15:52:02Z)
When to Go, and When to Explore: The Benefit of Post-Exploration in Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。目標達成後の探査を「後探査」と呼ぶ。我々は,いつまで,いつまで,いつまで,いつまで,いつまでかかるかを適応的に決定する新しい手法を導入する。
論文参考訳（メタデータ） (2022-03-29T16:50:12Z)
Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文参考訳（メタデータ） (2021-09-21T13:47:04Z)
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。 BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文参考訳（メタデータ） (2020-10-22T17:49:25Z)
Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。 Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文参考訳（メタデータ） (2020-05-12T17:59:45Z)
First return, then explore [18.876005532689234]
Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。 Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
論文参考訳（メタデータ） (2020-04-27T16:31:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。