論文の概要: Reinforcement Learning Friendly Vision-Language Model for Minecraft
- arxiv url: http://arxiv.org/abs/2303.10571v2
- Date: Mon, 5 Aug 2024 12:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 00:45:00.928129
- Title: Reinforcement Learning Friendly Vision-Language Model for Minecraft
- Title(参考訳): Minecraftのための強化学習フレンドリーなビジョンランゲージモデル
- Authors: Haobin Jiang, Junpeng Yue, Hao Luo, Ziluo Ding, Zongqing Lu,
- Abstract要約: クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。
オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。
提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
- 参考スコア(独自算出の注目度): 31.863271032186038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the essential missions in the AI research community is to build an autonomous embodied agent that can achieve high-level performance across a wide spectrum of tasks. However, acquiring or manually designing rewards for all open-ended tasks is unrealistic. In this paper, we propose a novel cross-modal contrastive learning framework architecture, CLIP4MC, aiming to learn a reinforcement learning (RL) friendly vision-language model (VLM) that serves as an intrinsic reward function for open-ended tasks. Simply utilizing the similarity between the video snippet and the language prompt is not RL-friendly since standard VLMs may only capture the similarity at a coarse level. To achieve RL-friendliness, we incorporate the task completion degree into the VLM training objective, as this information can assist agents in distinguishing the importance between different states. Moreover, we provide neat YouTube datasets based on the large-scale YouTube database provided by MineDojo. Specifically, two rounds of filtering operations guarantee that the dataset covers enough essential information and that the video-text pair is highly correlated. Empirically, we demonstrate that the proposed method achieves better performance on RL tasks compared with baselines. The code and datasets are available at https://github.com/PKU-RL/CLIP4MC.
- Abstract(参考訳): AI研究コミュニティにおける重要なミッションの1つは、幅広いタスクにわたるハイレベルなパフォーマンスを達成するための、自律的な実施エージェントを構築することである。
しかし、すべてのオープンエンドタスクに対する報酬の取得や手作業による設計は現実的ではない。
本稿では,オープンエンドタスクの本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的とした,新しいクロスモーダル・コントラスト学習フレームワークアーキテクチャであるCLIP4MCを提案する。
ビデオスニペットと言語プロンプトの類似性を利用するだけでは、標準のVLMは粗いレベルでのみ類似性をキャプチャできるため、RLフレンドリではない。
RL-フレンドリー化を実現するために,タスク完了度をVLMトレーニング目標に組み込むことで,エージェントが異なる状態間の重要度を識別するのを助けることができる。
さらに,MineDojoが提供する大規模YouTubeデータベースに基づいて,適切なYouTubeデータセットを提供する。
具体的には、2ラウンドのフィルタリング操作により、データセットが十分な必須情報をカバーし、ビデオとテキストのペアが高い相関性を持つことが保証される。
実験により,提案手法はベースラインに比べてRLタスクの性能が向上することが実証された。
コードとデータセットはhttps://github.com/PKU-RL/CLIP4MCで公開されている。
関連論文リスト
- Language-Model-Assisted Bi-Level Programming for Reward Learning from Internet Videos [48.2044649011213]
我々は、強化学習エージェントがインターネットビデオから報酬を学べるように、言語モデル支援のバイレベルプログラミングフレームワークを導入する。
このフレームワークは、視覚言語モデル(VLM)が学習者の振る舞いをエキスパートビデオと比較することでフィードバックを提供する上位レベルと、このフィードバックを報酬更新に変換する大規模言語モデル(LLM)の下位レベルである。
そこで本研究では,YouTubeビデオから報酬を学習する手法を検証するとともに,提案手法が生物エージェントのエキスパートビデオから効率的に報酬をデザインできることを示した。
論文 参考訳(メタデータ) (2024-10-11T22:31:39Z) - From Goal-Conditioned to Language-Conditioned Agents via Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Code as Reward: Empowering Reinforcement Learning with VLMs [37.862999288331906]
本稿では,事前学習した視覚言語モデルから高密度報酬関数を生成するために,Code as Reward (VLM-CaR) というフレームワークを提案する。
VLM-CaRは、VLMを直接クエリする際の計算負担を大幅に削減する。
このアプローチによって生成される高密度な報酬は、様々な離散的かつ連続的な環境において非常に正確であることを示す。
論文 参考訳(メタデータ) (2024-02-07T11:27:45Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。