論文の概要: CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft
- arxiv url: http://arxiv.org/abs/2303.10571v1
- Date: Sun, 19 Mar 2023 05:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 18:31:42.330219
- Title: CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft
- Title(参考訳): CLIP4MC:Minecraft用のRLフレンドリーなビジョンランゲージモデル
- Authors: Ziluo Ding, Hao Luo, Ke Li, Junpeng Yue, Tiejun Huang, and Zongqing Lu
- Abstract要約: 本稿では,新しいクロスモーダル・コントラスト学習フレームワークであるCLIP4MCを提案する。
我々は、オープンエンドタスクの報酬関数として機能するRLフレンドリーな視覚言語モデルを学ぶ。
我々は,MineDojoが提供する大規模YouTubeデータベースに基づいて,優れたYouTubeデータセットを構築した。
- 参考スコア(独自算出の注目度): 32.447102147806206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the essential missions in the AI research community is to build an
autonomous embodied agent that can attain high-level performance across a wide
spectrum of tasks. However, acquiring reward/penalty in all open-ended tasks is
unrealistic, making the Reinforcement Learning (RL) training procedure
impossible. In this paper, we propose a novel cross-modal contrastive learning
framework architecture, CLIP4MC, aiming to learn an RL-friendly vision-language
model that serves as a reward function for open-ended tasks. Therefore, no
further task-specific reward design is needed. Intuitively, it is more
reasonable for the model to address the similarity between the video snippet
and the language prompt at both the action and entity levels. To this end, a
motion encoder is proposed to capture the motion embeddings across different
intervals. The correlation scores are then used to construct the auxiliary
reward signal for RL agents. Moreover, we construct a neat YouTube dataset
based on the large-scale YouTube database provided by MineDojo. Specifically,
two rounds of filtering operations guarantee that the dataset covers enough
essential information and that the video-text pair is highly correlated.
Empirically, we show that the proposed method achieves better performance on RL
tasks compared with baselines.
- Abstract(参考訳): AI研究コミュニティにおける重要なミッションの1つは、幅広いタスクにわたるハイレベルなパフォーマンスを達成できる、自律的な実施エージェントを構築することである。
しかしながら、すべてのオープンエンドタスクにおける報酬/ペナルティの獲得は非現実的であり、強化学習(rl)トレーニング手順は不可能である。
本稿では,オープンエンドタスクの報酬関数として機能するRLフレンドリな視覚言語モデルを学習することを目的とした,新しいクロスモーダル・コントラスト学習フレームワークアーキテクチャであるCLIP4MCを提案する。
そのため、タスク固有の報酬設計は不要である。
直感的には、アクションレベルとエンティティレベルの両方において、ビデオスニペットと言語プロンプトの類似性に対処することがモデルにとってより合理的である。
この目的のために、異なる間隔にまたがる動き埋め込みをキャプチャするモーションエンコーダが提案されている。
次に相関スコアを用いてRLエージェントの補助報酬信号を構成する。
さらに,MineDojoが提供する大規模YouTubeデータベースに基づいて,適切なYouTubeデータセットを構築する。
具体的には、2ラウンドのフィルタリング操作により、データセットが十分な必須情報をカバーし、ビデオテキストペアが高い相関性を持つことを保証する。
実験により,提案手法はベースラインよりもRLタスクの性能がよいことを示す。
関連論文リスト
- Language-Model-Assisted Bi-Level Programming for Reward Learning from Internet Videos [48.2044649011213]
我々は、強化学習エージェントがインターネットビデオから報酬を学べるように、言語モデル支援のバイレベルプログラミングフレームワークを導入する。
このフレームワークは、視覚言語モデル(VLM)が学習者の振る舞いをエキスパートビデオと比較することでフィードバックを提供する上位レベルと、このフィードバックを報酬更新に変換する大規模言語モデル(LLM)の下位レベルである。
そこで本研究では,YouTubeビデオから報酬を学習する手法を検証するとともに,提案手法が生物エージェントのエキスパートビデオから効率的に報酬をデザインできることを示した。
論文 参考訳(メタデータ) (2024-10-11T22:31:39Z) - Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Code as Reward: Empowering Reinforcement Learning with VLMs [37.862999288331906]
本稿では,事前学習した視覚言語モデルから高密度報酬関数を生成するために,Code as Reward (VLM-CaR) というフレームワークを提案する。
VLM-CaRは、VLMを直接クエリする際の計算負担を大幅に削減する。
このアプローチによって生成される高密度な報酬は、様々な離散的かつ連続的な環境において非常に正確であることを示す。
論文 参考訳(メタデータ) (2024-02-07T11:27:45Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。