Fugu-MT 論文翻訳(概要): Vision-Language Models Provide Promptable Representations for Reinforcement Learning

論文の概要: Vision-Language Models Provide Promptable Representations for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.02651v2
Date: Tue, 13 Feb 2024 17:51:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 18:19:30.694506
Title: Vision-Language Models Provide Promptable Representations for Reinforcement Learning
Title（参考訳）: 強化学習のための視覚言語モデルの提案
Authors: William Chen and Oier Mees and Aviral Kumar and Sergey Levine
Abstract要約: 人間は、バックグラウンドワールドの知識を活用することで、素早く新しい行動を学ぶことができる。視覚言語モデルに符号化された多量の一般および索引可能な世界知識を利用する新しい手法を提案する。本研究では,ハビタットのマインクラフトとロボットナビゲーションにおいて,視覚的に複雑で長い水平方向のRLタスクに対するアプローチを評価する。
参考スコア（独自算出の注目度）: 73.63538447814504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans can quickly learn new behaviors by leveraging background world knowledge. In contrast, agents trained with reinforcement learning (RL) typically learn behaviors from scratch. We thus propose a novel approach that uses the vast amounts of general and indexable world knowledge encoded in vision-language models (VLMs) pre-trained on Internet-scale data for embodied RL. We initialize policies with VLMs by using them as promptable representations: embeddings that are grounded in visual observations and encode semantic features based on the VLM's internal knowledge, as elicited through prompts that provide task context and auxiliary information. We evaluate our approach on visually-complex, long horizon RL tasks in Minecraft and robot navigation in Habitat. We find that our policies trained on embeddings extracted from general-purpose VLMs outperform equivalent policies trained on generic, non-promptable image embeddings. We also find our approach outperforms instruction-following methods and performs comparably to domain-specific embeddings.
Abstract（参考訳）: 人間は背景の世界知識を生かして新しい行動を学ぶことができる。対照的に、強化学習(RL)で訓練されたエージェントは通常、スクラッチから行動を学ぶ。そこで本研究では,インターネット規模で事前学習した視覚言語モデル (VLM) に符号化された多量の一般・索引可能な世界知識を具体化するための新しい手法を提案する。視覚的な観察に基礎を置き、vlmの内部知識に基づいて意味的特徴をエンコードする埋め込みであり、タスクコンテキストと補助情報を提供するプロンプトによって引き起こされる。本研究では,ハビタットのマインクラフトとロボットナビゲーションにおいて,視覚的に複雑で長い水平方向のRLタスクに対するアプローチを評価する。汎用的なVLMから抽出した埋め込みを訓練したポリシーは、汎用的な非プロンプト可能な画像埋め込みを訓練した同等のポリシーより優れていた。また,本手法は命令追従法より優れ,ドメイン固有の埋め込みと互換性がある。

関連論文リスト

Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文参考訳（メタデータ） (2025-12-04T16:54:41Z)
LLM-Driven Policy Diffusion: Enhancing Generalization in Offline Reinforcement Learning [23.628360655654507]
強化学習(RL)はその強力な意思決定能力で知られ、様々な現実のシナリオに広く適用されている。オフラインデータの制限のため、RLエージェントは新しいタスクや環境に一般化するのに苦労することが多い。 LLM-Driven Policy Diffusion (LLMDPD) は,タスク固有のプロンプトを用いたオフラインRLの一般化を促進する新しい手法である。
論文参考訳（メタデータ） (2025-08-30T04:02:33Z)
Weakly-supervised VLM-guided Partial Contrastive Learning for Visual Language Navigation [36.17444261325021]
ビジュアル言語ナビゲーション(VLN)は、エージェントが自然言語命令に基づいて複雑な環境をナビゲートできることに焦点を当てた、Embodied AIの分野における基本的なタスクである。既存の手法は、VLNシナリオの動的視点と競合する視覚知覚のための事前訓練されたバックボーンモデルに依存している。 Weakly-supervised partial Contrastive Learning (WPCL) は, VLMの微調整を必要とせずに, VLNシナリオの動的視点からオブジェクトを識別する能力を高める手法である。
論文参考訳（メタデータ） (2025-06-18T11:43:50Z)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models [33.504700578933424]
低サンプリング効率は強化学習(RL)の持続的課題である環境の背景知識を抽出するために,大規模言語モデルを利用するフレームワークを導入する。実験により, 下流タスクのスペクトルにおいて, サンプル効率が著しく向上することが確認された。
論文参考訳（メタデータ） (2024-07-04T14:33:47Z)
Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models [26.964848679914354]
CoKnowは、リッチなコンテキスト知識を備えたビジョンランゲージモデルのためのPrompt Learningを強化するフレームワークである。我々は11の公開データセットに対して広範な実験を行い、CoKnowが過去の手法より優れていることを示した。
論文参考訳（メタデータ） (2024-04-16T07:44:52Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Context-Aware Prompt Tuning for Vision-Language Model with Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。 DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-09-08T06:51:15Z)
SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文参考訳（メタデータ） (2023-07-07T13:01:29Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Embodied Learning for Lifelong Visual Perception [33.02424587900808]
我々は、新しいモデルを開発し、建物内を航行する様々なエージェントを比較し、生涯の視覚知覚を具体化して研究する。エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。
論文参考訳（メタデータ） (2021-12-28T10:47:13Z)
Robust Deep Reinforcement Learning via Multi-View Information Bottleneck [7.188571996124112]
マルチビュー情報ボトルネック(MIB)の原理に基づく補助目標を提案する。これにより、未来を予測的かつタスク非関連な気遣いに敏感な学習表現が促進される。背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。
論文参考訳（メタデータ） (2021-02-26T02:24:36Z)
Teaching with Commentaries [108.62722733649542]
コメントとメタ情報を用いたフレキシブルな教育フレームワークを提案する。解説はトレーニングのスピードと/またはパフォーマンスを改善することができる。パフォーマンスのメリットを得るために、新しいモデルをトレーニングするときに、コメンタリを再利用できる。
論文参考訳（メタデータ） (2020-11-05T18:52:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。