論文の概要: REGENT: A Retrieval-Augmented Generalist Agent That Can Act In-Context in New Environments
- arxiv url: http://arxiv.org/abs/2412.04759v2
- Date: Mon, 24 Feb 2025 16:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:48:05.560964
- Title: REGENT: A Retrieval-Augmented Generalist Agent That Can Act In-Context in New Environments
- Title(参考訳): ReGENT: 新たな環境下でのインコンテキストの行動を可能にする検索強化ジェネリストエージェント
- Authors: Kaustubh Sridhar, Souradeep Dutta, Dinesh Jayaraman, Insup Lee,
- Abstract要約: 新しい環境に迅速に適応できるジェネラリストエージェントを構築することは、デジタルおよび現実世界にAIをデプロイする上で重要な課題である。
そこで本研究では,比較的小規模なデータセットを事前訓練した上で,コンテキスト内学習による未知の環境に適応する手法を提案する。
私たちのキーとなるアイデアは、検索が高速適応に強力なバイアスを与える、ということです。
- 参考スコア(独自算出の注目度): 20.826907313227323
- License:
- Abstract: Building generalist agents that can rapidly adapt to new environments is a key challenge for deploying AI in the digital and real worlds. Is scaling current agent architectures the most effective way to build generalist agents? We propose a novel approach to pre-train relatively small policies on relatively small datasets and adapt them to unseen environments via in-context learning, without any finetuning. Our key idea is that retrieval offers a powerful bias for fast adaptation. Indeed, we demonstrate that even a simple retrieval-based 1-nearest neighbor agent offers a surprisingly strong baseline for today's state-of-the-art generalist agents. From this starting point, we construct a semi-parametric agent, REGENT, that trains a transformer-based policy on sequences of queries and retrieved neighbors. REGENT can generalize to unseen robotics and game-playing environments via retrieval augmentation and in-context learning, achieving this with up to 3x fewer parameters and up to an order-of-magnitude fewer pre-training datapoints, significantly outperforming today's state-of-the-art generalist agents. Website: https://kaustubhsridhar.github.io/regent-research
- Abstract(参考訳): 新しい環境に迅速に適応できるジェネラリストエージェントを構築することは、デジタルおよび現実世界にAIをデプロイする上で重要な課題である。
現在のエージェントアーキテクチャのスケーリングは、ジェネラリストエージェントを構築する最も効果的な方法なのだろうか?
比較的小さなデータセットに対する比較的小さなポリシーを事前訓練し、テキスト内学習を通じて、微調整なしで、見知らぬ環境に適応するための新しいアプローチを提案する。
私たちのキーとなるアイデアは、検索が高速適応に強力なバイアスを与える、ということです。
実際、単純な検索ベースの1-アレスト隣人エージェントでさえ、今日の最先端のジェネラリストエージェントに驚くほど強力なベースラインを提供することを実証しています。
この開始点から、クエリと検索された隣人のシーケンスに対してトランスフォーマーベースのポリシーをトレーニングする半パラメトリックエージェントREGENTを構築する。
REGENTは、検索強化とコンテキスト内学習によって、目に見えないロボットやゲームプレイ環境に一般化することができ、最大3倍のパラメータでこれを達成し、最大1桁の事前学習データポイントを減らし、今日の最先端のジェネラリストエージェントを著しく上回っている。
Webサイト: https://kaustubhsridhar.github.io/regent-research
関連論文リスト
- AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。
オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。
本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-03T08:55:19Z) - Accelerating Hybrid Agent-Based Models and Fuzzy Cognitive Maps: How to Combine Agents who Think Alike? [0.0]
我々は, 思考するエージェントを「等しく考えるエージェント」と組み合わせることで, 個体数と計算時間を短縮する近似を提示する。
我々の革新は、エージェントの動作をルールのネットワークとして表現し、これらのネットワーク間の距離の異なる測度を経験的に評価することに依存します。
論文 参考訳(メタデータ) (2024-09-01T19:45:15Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Learning Synthetic Environments and Reward Networks for Reinforcement
Learning [34.01695320809796]
本稿では,Reinforcement Learning (RL)エージェントを訓練するためのプロキシ環境モデルとして,Synthetic Environments(SE)とReward Networks(RN)を紹介する。
エージェントがSEのみに訓練された後、対応する実環境を解くことができることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:55:59Z) - Take the Scenic Route: Improving Generalization in Vision-and-Language
Navigation [44.019674347733506]
一般的なRoom-to-Room (R2R) VLNベンチマークを調査し、重要なことは、合成するデータの量だけでなく、どのように処理するかを知る。
R2Rベンチマークと既存の拡張手法の両方で使用される最短経路サンプリングは、エージェントのアクション空間におけるバイアスを符号化する。
次に、これらの行動先行は、既存の作品の貧弱な一般化に対する一つの説明を提供することを示す。
論文 参考訳(メタデータ) (2020-03-31T14:52:42Z) - Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。
まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。
第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文 参考訳(メタデータ) (2020-03-03T18:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。