論文の概要: CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft
- arxiv url: http://arxiv.org/abs/2303.10571v1
- Date: Sun, 19 Mar 2023 05:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 18:31:42.330219
- Title: CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft
- Title(参考訳): CLIP4MC:Minecraft用のRLフレンドリーなビジョンランゲージモデル
- Authors: Ziluo Ding, Hao Luo, Ke Li, Junpeng Yue, Tiejun Huang, and Zongqing Lu
- Abstract要約: 本稿では,新しいクロスモーダル・コントラスト学習フレームワークであるCLIP4MCを提案する。
我々は、オープンエンドタスクの報酬関数として機能するRLフレンドリーな視覚言語モデルを学ぶ。
我々は,MineDojoが提供する大規模YouTubeデータベースに基づいて,優れたYouTubeデータセットを構築した。
- 参考スコア(独自算出の注目度): 32.447102147806206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the essential missions in the AI research community is to build an
autonomous embodied agent that can attain high-level performance across a wide
spectrum of tasks. However, acquiring reward/penalty in all open-ended tasks is
unrealistic, making the Reinforcement Learning (RL) training procedure
impossible. In this paper, we propose a novel cross-modal contrastive learning
framework architecture, CLIP4MC, aiming to learn an RL-friendly vision-language
model that serves as a reward function for open-ended tasks. Therefore, no
further task-specific reward design is needed. Intuitively, it is more
reasonable for the model to address the similarity between the video snippet
and the language prompt at both the action and entity levels. To this end, a
motion encoder is proposed to capture the motion embeddings across different
intervals. The correlation scores are then used to construct the auxiliary
reward signal for RL agents. Moreover, we construct a neat YouTube dataset
based on the large-scale YouTube database provided by MineDojo. Specifically,
two rounds of filtering operations guarantee that the dataset covers enough
essential information and that the video-text pair is highly correlated.
Empirically, we show that the proposed method achieves better performance on RL
tasks compared with baselines.
- Abstract(参考訳): AI研究コミュニティにおける重要なミッションの1つは、幅広いタスクにわたるハイレベルなパフォーマンスを達成できる、自律的な実施エージェントを構築することである。
しかしながら、すべてのオープンエンドタスクにおける報酬/ペナルティの獲得は非現実的であり、強化学習(rl)トレーニング手順は不可能である。
本稿では,オープンエンドタスクの報酬関数として機能するRLフレンドリな視覚言語モデルを学習することを目的とした,新しいクロスモーダル・コントラスト学習フレームワークアーキテクチャであるCLIP4MCを提案する。
そのため、タスク固有の報酬設計は不要である。
直感的には、アクションレベルとエンティティレベルの両方において、ビデオスニペットと言語プロンプトの類似性に対処することがモデルにとってより合理的である。
この目的のために、異なる間隔にまたがる動き埋め込みをキャプチャするモーションエンコーダが提案されている。
次に相関スコアを用いてRLエージェントの補助報酬信号を構成する。
さらに,MineDojoが提供する大規模YouTubeデータベースに基づいて,適切なYouTubeデータセットを構築する。
具体的には、2ラウンドのフィルタリング操作により、データセットが十分な必須情報をカバーし、ビデオテキストペアが高い相関性を持つことを保証する。
実験により,提案手法はベースラインよりもRLタスクの性能がよいことを示す。
関連論文リスト
- RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback [26.001201897655115]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Video Moment Retrieval via Natural Language Queries [7.611718124254329]
本稿では,映像モーメント検索(VMR)のための新しい手法を提案する。
私たちのモデルはシンプルなアーキテクチャで、維持しながらより高速なトレーニングと推論を可能にします。
論文 参考訳(メタデータ) (2020-09-04T22:06:34Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。