Fugu-MT 論文翻訳(概要): Vision-Language Models Provide Promptable Representations for Reinforcement Learning

論文の概要: Vision-Language Models Provide Promptable Representations for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.02651v3
Date: Thu, 23 May 2024 01:04:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 07:09:37.120671
Title: Vision-Language Models Provide Promptable Representations for Reinforcement Learning
Title（参考訳）: 視覚言語モデルによる強化学習のための確率的表現
Authors: William Chen, Oier Mees, Aviral Kumar, Sergey Levine,
Abstract要約: 視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
参考スコア（独自算出の注目度）: 67.40524195671479
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans can quickly learn new behaviors by leveraging background world knowledge. In contrast, agents trained with reinforcement learning (RL) typically learn behaviors from scratch. We thus propose a novel approach that uses the vast amounts of general and indexable world knowledge encoded in vision-language models (VLMs) pre-trained on Internet-scale data for embodied RL. We initialize policies with VLMs by using them as promptable representations: embeddings that encode semantic features of visual observations based on the VLM's internal knowledge and reasoning capabilities, as elicited through prompts that provide task context and auxiliary information. We evaluate our approach on visually-complex, long horizon RL tasks in Minecraft and robot navigation in Habitat. We find that our policies trained on embeddings from off-the-shelf, general-purpose VLMs outperform equivalent policies trained on generic, non-promptable image embeddings. We also find our approach outperforms instruction-following methods and performs comparably to domain-specific embeddings. Finally, we show that our approach can use chain-of-thought prompting to produce representations of common-sense semantic reasoning, improving policy performance in novel scenes by 1.5 times.
Abstract（参考訳）: 人間は、バックグラウンドワールドの知識を活用することで、素早く新しい行動を学ぶことができる。対照的に、強化学習(RL)で訓練されたエージェントは通常、スクラッチから行動を学ぶ。そこで本研究では,インターネット規模で事前学習した視覚言語モデル (VLM) に符号化された多量の一般・索引可能な世界知識を具体化するための新しい手法を提案する。 VLMの内部知識と推論能力に基づいて視覚観察のセマンティックな特徴をエンコードする埋め込みは、タスクコンテキストと補助情報を提供するプロンプトを通じて引き起こされる。本研究では,ハビタットのマインクラフトとロボットナビゲーションにおいて,視覚的に複雑で長い水平方向のRLタスクに対するアプローチを評価する。市販の汎用VLMの組込みを訓練したポリシーは、汎用的でプロンプブルでない画像埋め込みを訓練した同等のポリシーを上回ります。また,本手法は命令追従法より優れ,ドメイン固有の埋め込みに相容れない性能を示す。最後に,本手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上させることができることを示す。

関連論文リスト

Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文参考訳（メタデータ） (2025-12-04T16:54:41Z)
LLM-Driven Policy Diffusion: Enhancing Generalization in Offline Reinforcement Learning [23.628360655654507]
強化学習(RL)はその強力な意思決定能力で知られ、様々な現実のシナリオに広く適用されている。オフラインデータの制限のため、RLエージェントは新しいタスクや環境に一般化するのに苦労することが多い。 LLM-Driven Policy Diffusion (LLMDPD) は,タスク固有のプロンプトを用いたオフラインRLの一般化を促進する新しい手法である。
論文参考訳（メタデータ） (2025-08-30T04:02:33Z)
Weakly-supervised VLM-guided Partial Contrastive Learning for Visual Language Navigation [36.17444261325021]
ビジュアル言語ナビゲーション(VLN)は、エージェントが自然言語命令に基づいて複雑な環境をナビゲートできることに焦点を当てた、Embodied AIの分野における基本的なタスクである。既存の手法は、VLNシナリオの動的視点と競合する視覚知覚のための事前訓練されたバックボーンモデルに依存している。 Weakly-supervised partial Contrastive Learning (WPCL) は, VLMの微調整を必要とせずに, VLNシナリオの動的視点からオブジェクトを識別する能力を高める手法である。
論文参考訳（メタデータ） (2025-06-18T11:43:50Z)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models [33.504700578933424]
低サンプリング効率は強化学習(RL)の持続的課題である環境の背景知識を抽出するために,大規模言語モデルを利用するフレームワークを導入する。実験により, 下流タスクのスペクトルにおいて, サンプル効率が著しく向上することが確認された。
論文参考訳（メタデータ） (2024-07-04T14:33:47Z)
Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models [26.964848679914354]
CoKnowは、リッチなコンテキスト知識を備えたビジョンランゲージモデルのためのPrompt Learningを強化するフレームワークである。我々は11の公開データセットに対して広範な実験を行い、CoKnowが過去の手法より優れていることを示した。
論文参考訳（メタデータ） (2024-04-16T07:44:52Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Context-Aware Prompt Tuning for Vision-Language Model with Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。 DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-09-08T06:51:15Z)
SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文参考訳（メタデータ） (2023-07-07T13:01:29Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Embodied Learning for Lifelong Visual Perception [33.02424587900808]
我々は、新しいモデルを開発し、建物内を航行する様々なエージェントを比較し、生涯の視覚知覚を具体化して研究する。エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。
論文参考訳（メタデータ） (2021-12-28T10:47:13Z)
Robust Deep Reinforcement Learning via Multi-View Information Bottleneck [7.188571996124112]
マルチビュー情報ボトルネック(MIB)の原理に基づく補助目標を提案する。これにより、未来を予測的かつタスク非関連な気遣いに敏感な学習表現が促進される。背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。
論文参考訳（メタデータ） (2021-02-26T02:24:36Z)
Teaching with Commentaries [108.62722733649542]
コメントとメタ情報を用いたフレキシブルな教育フレームワークを提案する。解説はトレーニングのスピードと/またはパフォーマンスを改善することができる。パフォーマンスのメリットを得るために、新しいモデルをトレーニングするときに、コメンタリを再利用できる。
論文参考訳（メタデータ） (2020-11-05T18:52:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。