論文の概要: CLIP-RL: Aligning Language and Policy Representations for Task Transfer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.01616v1
- Date: Mon, 01 Dec 2025 12:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.84858
- Title: CLIP-RL: Aligning Language and Policy Representations for Task Transfer in Reinforcement Learning
- Title(参考訳): CLIP-RL:強化学習におけるタスク伝達のための言語とポリシー表現の調整
- Authors: Chainesh Gautam, Raghuram Bharadwaj Diddigi,
- Abstract要約: 本稿では,事前学習した(言語,ポリシー)ペアの組み合わせを利用して,効率的な転送パイプラインを構築する手法を提案する。
このアルゴリズムは,コンピュータビジョンにおけるCLIP(Contrastive Language- Image Pretraining)の原理に着想を得たものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been an increasing need to develop agents capable of solving multiple tasks within the same environment, especially when these tasks are naturally associated with language. In this work, we propose a novel approach that leverages combinations of pre-trained (language, policy) pairs to establish an efficient transfer pipeline. Our algorithm is inspired by the principles of Contrastive Language-Image Pretraining (CLIP) in Computer Vision, which aligns representations across different modalities under the philosophy that ''two modalities representing the same concept should have similar representations.'' The central idea here is that the instruction and corresponding policy of a task represent the same concept, the task itself, in two different modalities. Therefore, by extending the idea of CLIP to RL, our method creates a unified representation space for natural language and policy embeddings. Experimental results demonstrate the utility of our algorithm in achieving faster transfer across tasks.
- Abstract(参考訳): 近年,これらのタスクが言語と自然に関連付けられている場合,複数のタスクを同一環境内で解決できるエージェントの開発の必要性が高まっている。
本研究では,事前学習した(言語,ポリシー)ペアの組み合わせを利用して,効率的な転送パイプラインを構築する手法を提案する。
我々のアルゴリズムは、コンピュータビジョンにおけるコントラスト言語-画像事前学習(CLIP)の原理にインスパイアされ、「同じ概念を表す2つのモダリティは、同じ概念を表す2つのモダリティに類似する表現を持つべきである」という哲学の下で、異なるモダリティの表現を整列する。
したがって、CLIPのアイデアをRLに拡張することにより、自然言語とポリシーの埋め込みのための統一表現空間を作成する。
実験により,タスク間の移動を高速化するアルゴリズムの有用性が示された。
関連論文リスト
- Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z) - Continual Vision-based Reinforcement Learning with Group Symmetries [18.7526848176769]
我々は,COVERSと呼ばれるグループ対称性を認識する,ユニークな連続視覚に基づく強化学習手法を提案する。
その結果, COVERS は各グループにタスクを正確に割り当て, 一般化能力において既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-21T23:41:02Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Zero-Shot Policy Transfer with Disentangled Task Representation of
Meta-Reinforcement Learning [30.633075584454275]
本研究では,タスク構成性を活用して,強化学習(RL)エージェントのゼロショットポリシーの一般化を実現することを目的とする。
提案手法は,タスクの異なる側面を明示的に符号化した,切り離されたタスク表現を持つメタRLアルゴリズムである。
政策一般化は、得られた不整合を通して、目に見えない構成的タスク表現を推測することによって行われる。
論文 参考訳(メタデータ) (2022-10-01T19:31:46Z) - Common Language for Goal-Oriented Semantic Communications: A Curriculum
Learning Framework [66.81698651016444]
目標指向タスク実行を実現するための包括的セマンティックコミュニケーションフレームワークを提案する。
カリキュラム学習(CL)と強化学習(RL)を組み合わせた新しいトップダウンフレームワークを提案する。
シミュレーションの結果,提案手法は,学習中の収束時間,タスク実行時間,送信コストにおいて従来のRLよりも優れていた。
論文 参考訳(メタデータ) (2021-11-15T19:13:55Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。