論文の概要: Mapping representations in Reinforcement Learning via Semantic Alignment for Zero-Shot Stitching
- arxiv url: http://arxiv.org/abs/2503.01881v1
- Date: Wed, 26 Feb 2025 22:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:51.707774
- Title: Mapping representations in Reinforcement Learning via Semantic Alignment for Zero-Shot Stitching
- Title(参考訳): ゼロショットスティッチのための意味的アライメントによる強化学習における表現のマッピング
- Authors: Antonio Pio Ricciardi, Valentino Maiorca, Luca Moschella, Riccardo Marin, Emanuele Rodolà,
- Abstract要約: 深層強化学習モデルは、環境の観察やタスク要求に小さな変化があったとしても、一般化に失敗することが多い。
そこで本稿では,視覚的およびタスクのバリエーションを学習したエージェント間での潜伏空間間のマッピングをゼロショットで行う手法を提案する。
背景と作業が変化するCarRacing環境において,ゼロショット縫合性能を実証的に実証した。
- 参考スコア(独自算出の注目度): 17.76990521486307
- License:
- Abstract: Deep Reinforcement Learning (RL) models often fail to generalize when even small changes occur in the environment's observations or task requirements. Addressing these shifts typically requires costly retraining, limiting the reusability of learned policies. In this paper, we build on recent work in semantic alignment to propose a zero-shot method for mapping between latent spaces across different agents trained on different visual and task variations. Specifically, we learn a transformation that maps embeddings from one agent's encoder to another agent's encoder without further fine-tuning. Our approach relies on a small set of "anchor" observations that are semantically aligned, which we use to estimate an affine or orthogonal transform. Once the transformation is found, an existing controller trained for one domain can interpret embeddings from a different (existing) encoder in a zero-shot fashion, skipping additional trainings. We empirically demonstrate that our framework preserves high performance under visual and task domain shifts. We empirically demonstrate zero-shot stitching performance on the CarRacing environment with changing background and task. By allowing modular re-assembly of existing policies, it paves the way for more robust, compositional RL in dynamically changing environments.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning, RL)モデルは、環境の観察やタスク要求に小さな変化があったとしても、一般化に失敗することが多い。
これらのシフトに対処するには、通常、コストのかかる再トレーニングが必要であり、学習されたポリシーの再利用性を制限する。
本稿では,視覚的・タスク的バリエーションの異なるエージェント間でのラテント空間間のマッピングのためのゼロショット手法を提案するために,近年のセマンティックアライメントの取り組みを基盤として構築する。
具体的には、あるエージェントのエンコーダから他のエージェントのエンコーダへの埋め込みを、さらなる微調整なしでマッピングする変換を学習する。
我々のアプローチは、意味的に整列した小さな「アンカー」観測セットに依存しており、アフィン変換や直交変換を推定するために使われる。
一度変換が見つかると、あるドメインのためにトレーニングされた既存のコントローラは、異なる(既存の)エンコーダからの埋め込みをゼロショットで解釈し、追加のトレーニングをスキップすることができる。
視覚領域とタスク領域のシフトの下で,我々のフレームワークがハイパフォーマンスを保っていることを実証的に実証した。
背景と作業が変化するCarRacing環境において,ゼロショット縫合性能を実証的に実証した。
既存のポリシーをモジュール化して再組み立てすることで、動的に変化する環境において、より堅牢で構成的なRLを実現することができる。
関連論文リスト
- Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning [51.177789437682954]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、モデルが学習したクラスの知識を維持しつつ、新しいクラスを逐次学習できるようにすることを目的とする。
柔軟性と安定性のバランスをとることは、特にタスクIDが不明な場合には、依然として大きな課題である。
本研究では,平均シフト補償と共分散校正を組み合わせたセマンティックドリフト校正法を提案する。
論文 参考訳(メタデータ) (2025-02-11T13:57:30Z) - Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - R3L: Relative Representations for Reinforcement Learning [17.76990521486307]
入力領域の変化(例えば、季節変化によるパノラマ色の変化)がエージェントのパフォーマンスを損なうことが知られている。
表現学習の分野での最近の進歩は、新しいモデルを作るためにコンポーネントを組み合わせる可能性を示している。
我々は、このフレームワークをVisual Reinforcement Learningの設定に適応させ、エージェントコンポーネントを組み合わせて新しいビジュアルタスクペアを効果的に処理できる新しいエージェントを作成する。
論文 参考訳(メタデータ) (2024-04-19T14:42:42Z) - Latent Space Translation via Semantic Alignment [29.2401314068038]
我々は、異なるニューラルモジュールから学んだ表現が、異なる事前学習されたネットワーク間でどのように変換されるかを示す。
提案手法は, 与えられた2つの潜在空間間の変換を直接推定することにより, 付加的な訓練を伴わずに, エンコーダとデコーダを効果的に縫合できる。
特に、ゼロショットテクストテキストエンコーダやビジョンデコーダ、あるいはリバーサがいかに可能かを示し、このマルチモーダル環境で驚くほど優れた分類性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-01T17:12:00Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning [18.269412736181852]
我々はAdaRLと呼ばれる適応RLの原理的フレームワークを提案し、ドメイン間の変化に確実に適応する。
AdaRLは、ターゲットドメインでさらなるポリシー最適化を行うことなく、少数のサンプルでポリシーを適応できることを示す。
本稿では,AdaRLがCartpole と Atari の異なるコンポーネントに変化をもたらすための一連の実験を通じて有効性を示す。
論文 参考訳(メタデータ) (2021-07-06T16:56:25Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。