論文の概要: Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents
- arxiv url: http://arxiv.org/abs/2412.11484v1
- Date: Mon, 16 Dec 2024 06:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:27.469079
- Title: Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents
- Title(参考訳): コントラスト・プロンプト・アンサンブルを用いた身体的エージェントの効率的な政策適応
- Authors: Wonje Choi, Woo Kyung Kim, SeungHyun Kim, Honguk Woo,
- Abstract要約: 本稿では,強化学習のための新しいコントラスト・プロンプト・アンサンブル(ConPE)フレームワークを提案する。
視覚言語モデル上に複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。
実験では,いくつかの具体的エージェントタスクに対して,ConPEが他の最先端アルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 6.402396836189286
- License:
- Abstract: For embodied reinforcement learning (RL) agents interacting with the environment, it is desirable to have rapid policy adaptation to unseen visual observations, but achieving zero-shot adaptation capability is considered as a challenging problem in the RL context. To address the problem, we present a novel contrastive prompt ensemble (ConPE) framework which utilizes a pretrained vision-language model and a set of visual prompts, thus enabling efficient policy learning and adaptation upon a wide range of environmental and physical changes encountered by embodied agents. Specifically, we devise a guided-attention-based ensemble approach with multiple visual prompts on the vision-language model to construct robust state representations. Each prompt is contrastively learned in terms of an individual domain factor that significantly affects the agent's egocentric perception and observation. For a given task, the attention-based ensemble and policy are jointly learned so that the resulting state representations not only generalize to various domains but are also optimized for learning the task. Through experiments, we show that ConPE outperforms other state-of-the-art algorithms for several embodied agent tasks including navigation in AI2THOR, manipulation in egocentric-Metaworld, and autonomous driving in CARLA, while also improving the sample efficiency of policy learning and adaptation.
- Abstract(参考訳): 環境と相互作用する強化学習(RL)エージェントには、目に見えない視覚的観察に迅速に対応することが望ましいが、ゼロショット適応能力を達成することは、RLコンテキストにおいて難しい問題であると考えられる。
この問題に対処するために,事前学習された視覚言語モデルと一連の視覚的プロンプトを利用する新しいコントラッシブ・プロンプト・アンサンブル(ConPE)フレームワークを提案する。
具体的には、視覚言語モデル上で複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。
各プロンプトは、エージェントの自我中心の知覚と観察に大きな影響を及ぼす個々のドメインファクターの観点から対照的に学習される。
あるタスクに対して、注意に基づくアンサンブルとポリシーは共同で学習され、結果の状態表現が様々なドメインに一般化されるだけでなく、タスクの学習にも最適化される。
実験により、AI2THORでのナビゲーション、自我中心世界での操作、CARLAでの自律運転など、いくつかの具体的エージェントタスクにおいて、ConPEが他の最先端のアルゴリズムよりも優れており、政策学習と適応のサンプル効率も向上していることを示す。
関連論文リスト
- Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [0.0]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation [49.43094200366251]
本稿では,タスク分解のセマンティック理解を生かした,未確認タスクへの数発適応のための新しいアプローチを提案する。
我々の手法であるPALO(Policy Adaptation via Language Optimization)は,タスクのいくつかの実演と,提案する言語分解とを組み合わせる。
PALOは、実世界の長期・多層的なタスクを一貫して完了することができ、事前訓練されたジェネラリスト政策の状況よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T03:03:35Z) - External Model Motivated Agents: Reinforcement Learning for Enhanced Environment Sampling [3.536024441537599]
強化学習(RL)エージェントとは異なり、人間は環境の変化において有能なマルチタスクのままである。
環境変化における外部モデルの適応効率を向上させるために,RLエージェントのエージェント影響フレームワークを提案する。
提案手法は,効率と性能の両面を測る指標に対する外部モデル適応の観点から,ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-28T23:31:22Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Towards Difficulty-Agnostic Efficient Transfer Learning for Vision-Language Models [28.057588125823266]
本稿では,各手法が伝達困難に対してどのように振る舞うかを実証的に分析する。
本稿では,視覚的プロンプトとテキストアダプタを事前学習したVLMとを組み合わせた適応型アンサンブル手法を提案する。
論文 参考訳(メタデータ) (2023-11-27T06:37:05Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Conceptual Reinforcement Learning for Language-Conditioned Tasks [20.300727364957208]
言語条件付き政策における概念的共同表現を学習するための概念強化学習(CRL)フレームワークを提案する。
鍵となる洞察は、概念は人間のインスタンスや現実世界の状況におけるコンパクトで不変な表現であるということである。
論文 参考訳(メタデータ) (2023-03-09T07:01:06Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。