論文の概要: Prompt-based Visual Alignment for Zero-shot Policy Transfer
- arxiv url: http://arxiv.org/abs/2406.03250v1
- Date: Wed, 5 Jun 2024 13:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:10:52.641213
- Title: Prompt-based Visual Alignment for Zero-shot Policy Transfer
- Title(参考訳): ゼロショットポリシー伝達のためのプロンプトに基づく視覚アライメント
- Authors: Haihan Gao, Rui Zhang, Qi Yi, Hantao Yao, Haochen Li, Jiaming Guo, Shaohui Peng, Yunkai Gao, QiCheng Wang, Xing Hu, Yuanbo Wen, Zihao Zhang, Zidong Du, Ling Li, Qi Guo, Yunji Chen,
- Abstract要約: 強化学習におけるオーバーフィッティングは、強化学習への応用における主要な障害の1つとなっている。
ゼロショットポリシー転送のための画像における有害領域バイアスを軽減するために,プロンプトベースの視覚アライメント(PVA)を提案する。
CARLAシミュレータを用いて視覚に基づく自律運転タスクにおけるPVAの検証を行う。
- 参考スコア(独自算出の注目度): 35.784936617675896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overfitting in RL has become one of the main obstacles to applications in reinforcement learning(RL). Existing methods do not provide explicit semantic constrain for the feature extractor, hindering the agent from learning a unified cross-domain representation and resulting in performance degradation on unseen domains. Besides, abundant data from multiple domains are needed. To address these issues, in this work, we propose prompt-based visual alignment (PVA), a robust framework to mitigate the detrimental domain bias in the image for zero-shot policy transfer. Inspired that Visual-Language Model (VLM) can serve as a bridge to connect both text space and image space, we leverage the semantic information contained in a text sequence as an explicit constraint to train a visual aligner. Thus, the visual aligner can map images from multiple domains to a unified domain and achieve good generalization performance. To better depict semantic information, prompt tuning is applied to learn a sequence of learnable tokens. With explicit constraints of semantic information, PVA can learn unified cross-domain representation under limited access to cross-domain data and achieves great zero-shot generalization ability in unseen domains. We verify PVA on a vision-based autonomous driving task with CARLA simulator. Experiments show that the agent generalizes well on unseen domains under limited access to multi-domain data.
- Abstract(参考訳): RLのオーバーフィッティングは強化学習(RL)への応用における主要な障害の一つとなっている。
既存のメソッドは、特徴抽出器に明示的なセマンティック制約を提供しておらず、エージェントが統合されたクロスドメイン表現を学習することを妨げる。
さらに、複数のドメインからの豊富なデータが必要である。
これらの課題に対処するため,本研究では,ゼロショットポリシ転送のための画像における有害領域バイアスを軽減するための堅牢なフレームワークであるプロンプトベースの視覚アライメント(PVA)を提案する。
VLM(Visual-Language Model)がテキスト空間と画像空間の両方を接続するブリッジとして機能できることに着想を得て、テキストシーケンスに含まれる意味情報を明示的な制約として活用し、ビジュアルコンディショナーを訓練する。
これにより、複数の領域からの画像を統一された領域にマッピングし、優れた一般化性能が得られる。
意味情報をよりよく表現するために、学習可能なトークンのシーケンスを学習するためにプロンプトチューニングを適用する。
意味情報の明示的な制約により、PVAはクロスドメインデータに制限されたアクセス下で、統一されたクロスドメイン表現を学習し、目に見えないドメインで大きなゼロショットの一般化能力を達成することができる。
CARLAシミュレータを用いて視覚に基づく自律運転タスクにおけるPVAの検証を行う。
実験により、エージェントは、マルチドメインデータへの限られたアクセス下で、見えないドメインによく一般化することが示された。
関連論文リスト
- WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Feature Representation Learning for Unsupervised Cross-domain Image
Retrieval [73.3152060987961]
現在の教師付きクロスドメイン画像検索法は優れた性能が得られる。
データ収集とラベリングのコストは、実際のアプリケーションにおける実践的なデプロイにおいて、難易度の高い障壁を課します。
本稿では,クラス意味認識機能抽出を支援するために,クラスタ単位のコントラスト学習機構を提案する。
論文 参考訳(メタデータ) (2022-07-20T07:52:14Z) - TridentAdapt: Learning Domain-invariance via Source-Target Confrontation
and Self-induced Cross-domain Augmentation [0.0]
主な課題は、仮想データから恩恵を受けるために、入力のドメインに依存しない表現を学ぶことである。
本稿では,対立ソースとターゲット制約を同時に満たすために,共有機能エンコーダを強制するトリデント型アーキテクチャを提案する。
また、フォワードパス中に自己誘導型クロスドメインデータ拡張を可能にする新しいトレーニングパイプラインも導入する。
論文 参考訳(メタデータ) (2021-11-30T11:25:46Z) - SPCL: A New Framework for Domain Adaptive Semantic Segmentation via
Semantic Prototype-based Contrastive Learning [6.705297811617307]
ドメイン適応は、ラベル付けされたソースドメインからラベル付けされていないターゲットドメインに知識を転送するのに役立ちます。
本稿では,クラスアライメントを微粒化するための新しい意味的プロトタイプに基づくコントラスト学習フレームワークを提案する。
我々の手法は実装が容易であり、最先端の手法と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-24T09:26:07Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Variational Interaction Information Maximization for Cross-domain
Disentanglement [34.08140408283391]
ドメイン間の絡み合いは、ドメイン不変表現とドメイン固有表現に分割された表現の学習の問題である。
複数の情報制約の共用目的として,ドメイン不変表現とドメイン固有表現の同時学習を行った。
ゼロショットスケッチに基づく画像検索タスクにおいて,本モデルが最新性能を達成することを示した。
論文 参考訳(メタデータ) (2020-12-08T07:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。