論文の概要: GridToPix: Training Embodied Agents with Minimal Supervision
- arxiv url: http://arxiv.org/abs/2105.00931v1
- Date: Wed, 14 Apr 2021 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 20:43:23.644134
- Title: GridToPix: Training Embodied Agents with Minimal Supervision
- Title(参考訳): GridToPix:最小限のスーパービジョンによる身体エージェントのトレーニング
- Authors: Unnat Jain, Iou-Jen Liu, Svetlana Lazebnik, Aniruddha Kembhavi, Luca
Weihs, Alexander Schwing
- Abstract要約: GridToPixは、Embodied AI環境を反映したグリッドワールドにおいて、終末報酬を持つエージェントを訓練する。
同一モデルとRLアルゴリズムによる端末報酬のみから学んだにもかかわらず、GridToPixはタスク間の結果を著しく改善している。
- 参考スコア(独自算出の注目度): 87.05256520152723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep reinforcement learning (RL) promises freedom from hand-labeled
data, great successes, especially for Embodied AI, require significant work to
create supervision via carefully shaped rewards. Indeed, without shaped
rewards, i.e., with only terminal rewards, present-day Embodied AI results
degrade significantly across Embodied AI problems from single-agent
Habitat-based PointGoal Navigation (SPL drops from 55 to 0) and two-agent
AI2-THOR-based Furniture Moving (success drops from 58% to 1%) to three-agent
Google Football-based 3 vs. 1 with Keeper (game score drops from 0.6 to 0.1).
As training from shaped rewards doesn't scale to more realistic tasks, the
community needs to improve the success of training with terminal rewards. For
this we propose GridToPix: 1) train agents with terminal rewards in gridworlds
that generically mirror Embodied AI environments, i.e., they are independent of
the task; 2) distill the learned policy into agents that reside in complex
visual worlds. Despite learning from only terminal rewards with identical
models and RL algorithms, GridToPix significantly improves results across
tasks: from PointGoal Navigation (SPL improves from 0 to 64) and Furniture
Moving (success improves from 1% to 25%) to football gameplay (game score
improves from 0.1 to 0.6). GridToPix even helps to improve the results of
shaped reward training.
- Abstract(参考訳): 深層強化学習(RL)は手書きデータから自由を約束するが、特にEmbodied AIにとって大きな成功は、注意深く形づくられた報酬を通じて監督を作成するために多大な作業を必要とする。
実際には、端末報酬のみを伴わず、現在のEmbodied AIの結果は、シングルエージェントのHabitatベースのPointGoal Navigation(SPLドロップは55から0)と2エージェントのAI2-THORベースのFurniture moving(58%から1%)から3エージェントのGoogle Footballベースの3対1(ゲームスコアは0.6から0.1)のEmbodied AI問題から大きく低下している。
形の報酬によるトレーニングがより現実的なタスクにスケールしないため、コミュニティはターミナル報酬によるトレーニングの成功を改善する必要がある。
この目的のために、GridToPix: 1)グリッドワールドにおける終末報酬を持つ訓練エージェント、すなわち、それらがタスクから独立していること、2)複雑な視覚世界に存在するエージェントに学習ポリシーを蒸留することを提案する。
同一のモデルとrlアルゴリズムで端末の報酬だけを学ぶと、gridtopixはタスク間の結果を大幅に改善する。ポイントゴーアナビゲーション(splは0から64に改善)と家具の移動(成功は1%から25%に向上)からフットボールゲームプレイ(ゲームスコアは0.1から0.6に改善)。
GridToPixは、字型の報酬訓練の結果も改善する。
関連論文リスト
- On-Robot Reinforcement Learning with Goal-Contrastive Rewards [24.415607337006968]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界で自身の行動から学ぶことができる能力を持つ。
我々は、受動的ビデオデモでトレーニング可能な高密度報酬関数学習法であるGCR(Goal-intensiveive Rewards)を提案する。
GCRは2つの損失関数、成功軌跡を走行する際の報酬の増大をモデル化する暗黙値損失関数、そして成功軌跡と失敗軌跡を区別する目標コントラスト損失を組み合わせた。
論文 参考訳(メタデータ) (2024-10-25T22:11:54Z) - Sample-Efficient Preference-based Reinforcement Learning with Dynamics
Aware Rewards [2.5101508961934837]
優先度に基づく強化学習(PbRL)は、エージェントの行動に対する二項フィードバックから学習した報酬関数を介して、ロボットの行動と人間の嗜好を一致させる。
本研究では,PbRLの試料効率を桁違いに向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T01:41:34Z) - SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World [46.02807945490169]
シミュレーションにおける最短パスプランナーの模倣は,RGBセンサ(深度マップやGPS座標なし)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うエージェントを生成することを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
論文 参考訳(メタデータ) (2023-12-05T18:59:45Z) - Eureka: Human-Level Reward Design via Coding Large Language Models [121.91007140014982]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。
LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。
Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
論文 参考訳(メタデータ) (2023-10-19T17:31:01Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Pixel to policy: DQN Encoders for within & cross-game reinforcement
learning [0.0]
強化学習は様々なタスクや環境に適用できる。
多くの環境は類似した構造を持ち、他のタスクでのRL性能を改善するために利用することができる。
この研究は、スクラッチからトレーニングされたRLモデルのパフォーマンスと、トランスファーラーニングの異なるアプローチの比較も行っている。
論文 参考訳(メタデータ) (2023-08-01T06:29:33Z) - Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards [101.7246658985579]
ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-06-07T14:58:15Z) - A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning [19.67628391301068]
我々は,様々な種類の報酬の下で,複数の最先端の深層強化学習アルゴリズムの性能について検討した。
以上の結果から,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことが示唆された。
論文 参考訳(メタデータ) (2021-08-06T17:47:48Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。