論文の概要: Understanding Representations Pretrained with Auxiliary Losses for
Embodied Agent Planning
- arxiv url: http://arxiv.org/abs/2312.10069v1
- Date: Wed, 6 Dec 2023 04:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:47:04.338075
- Title: Understanding Representations Pretrained with Auxiliary Losses for
Embodied Agent Planning
- Title(参考訳): エージェント計画における補助損失を考慮した表現の理解
- Authors: Yuxuan Li, Luca Weihs
- Abstract要約: 具体的AIにおける4つの一般的な補助的損失,2つの後視に基づく損失,および標準的な模倣学習損失を評価した。
探索軌道上の模倣学習は,下流作業と異なる探索軌道であっても,他の補助的損失よりも優れていた。
- 参考スコア(独自算出の注目度): 16.445611258136857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained representations from large-scale vision models have boosted the
performance of downstream embodied policy learning. We look to understand
whether additional self-supervised pretraining on exploration trajectories can
build on these general-purpose visual representations to better support
embodied planning in realistic environments. We evaluated four common auxiliary
losses in embodied AI, two hindsight-based losses, and a standard imitation
learning loss, by pretraining the agent's visual compression module and state
belief representations with each objective and using CLIP as a representative
visual backbone. The learned representations are then frozen for downstream
multi-step evaluation on two goal-directed tasks. Surprisingly, we find that
imitation learning on these exploration trajectories out-performs all other
auxiliary losses even despite the exploration trajectories being dissimilar
from the downstream tasks. This suggests that imitation of exploration may be
''all you need'' for building powerful planning representations. Additionally,
we find that popular auxiliary losses can benefit from simple modifications to
improve their support for downstream planning ability.
- Abstract(参考訳): 大規模視覚モデルの事前表現は、下流の具体的政策学習の性能を高める。
現実的な環境下での具体的計画を支援するために,これらの汎用的な視覚表現に基づいて,探索軌道上での自己指導型事前訓練が構築できるかどうかを考察する。
エージェントの視覚圧縮モジュールと状態信念表現を各目的に事前学習し,クリップを代表的視覚バックボーンとして使用することにより,具体化aiにおける4つの補助的損失,後視に基づく損失,および標準模倣学習損失を評価した。
学習した表現は2つの目標指向タスクの下流マルチステップ評価のために凍結される。
驚くべきことに、これらの探索軌道上の模倣学習は、下流の作業と異なる探索軌道であっても、他の補助的損失よりも優れていた。
これは、探索の模倣が、強力な計画表現を構築するのに'すべて必要'である可能性を示唆している。
さらに,下流計画能力の向上に資する簡易な改良によって,一般的な補助的損失の恩恵が得られている。
関連論文リスト
- DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Learning with a Mole: Transferable latent spatial representations for
navigation without reconstruction [12.845774297648736]
ほとんどのエンドツーエンドの学習アプローチでは、表現は潜伏しており、通常は明確に定義された解釈を持っていない。
本研究では,目的とする下流タスクとは無関係にシーンの動作可能な表現を学習することを提案する。
学習された表現は、進路から分岐する複数の短いエピソードをナビゲートするように訓練された盲人補助エージェントによって最適化される。
論文 参考訳(メタデータ) (2023-06-06T16:51:43Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Reinforcement Learning with Automated Auxiliary Loss Search [34.83123677004838]
補助的損失関数を用いたより良い表現を学習するための原理的,普遍的な手法を提案する。
具体的には、7.5×1020$の一般的な補助損失空間を定義し、効率的な進化的探索戦略を用いて空間を探索する。
その結果, 高次元(イメージ)と低次元(ベクター)の両タスクにおいて, 補助的損失が有意に改善されることが判明した。
論文 参考訳(メタデータ) (2022-10-12T09:24:53Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。