Fugu-MT 論文翻訳(概要): CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft

論文の概要: CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft

arxiv url: http://arxiv.org/abs/2303.10571v1
Date: Sun, 19 Mar 2023 05:20:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-21 18:31:42.330219
Title: CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft
Title（参考訳）: CLIP4MC:Minecraft用のRLフレンドリーなビジョンランゲージモデル
Authors: Ziluo Ding, Hao Luo, Ke Li, Junpeng Yue, Tiejun Huang, and Zongqing Lu
Abstract要約: 本稿では,新しいクロスモーダル・コントラスト学習フレームワークであるCLIP4MCを提案する。我々は、オープンエンドタスクの報酬関数として機能するRLフレンドリーな視覚言語モデルを学ぶ。我々は,MineDojoが提供する大規模YouTubeデータベースに基づいて,優れたYouTubeデータセットを構築した。
参考スコア（独自算出の注目度）: 32.447102147806206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the essential missions in the AI research community is to build an autonomous embodied agent that can attain high-level performance across a wide spectrum of tasks. However, acquiring reward/penalty in all open-ended tasks is unrealistic, making the Reinforcement Learning (RL) training procedure impossible. In this paper, we propose a novel cross-modal contrastive learning framework architecture, CLIP4MC, aiming to learn an RL-friendly vision-language model that serves as a reward function for open-ended tasks. Therefore, no further task-specific reward design is needed. Intuitively, it is more reasonable for the model to address the similarity between the video snippet and the language prompt at both the action and entity levels. To this end, a motion encoder is proposed to capture the motion embeddings across different intervals. The correlation scores are then used to construct the auxiliary reward signal for RL agents. Moreover, we construct a neat YouTube dataset based on the large-scale YouTube database provided by MineDojo. Specifically, two rounds of filtering operations guarantee that the dataset covers enough essential information and that the video-text pair is highly correlated. Empirically, we show that the proposed method achieves better performance on RL tasks compared with baselines.
Abstract（参考訳）: AI研究コミュニティにおける重要なミッションの1つは、幅広いタスクにわたるハイレベルなパフォーマンスを達成できる、自律的な実施エージェントを構築することである。しかしながら、すべてのオープンエンドタスクにおける報酬/ペナルティの獲得は非現実的であり、強化学習(rl)トレーニング手順は不可能である。本稿では,オープンエンドタスクの報酬関数として機能するRLフレンドリな視覚言語モデルを学習することを目的とした,新しいクロスモーダル・コントラスト学習フレームワークアーキテクチャであるCLIP4MCを提案する。そのため、タスク固有の報酬設計は不要である。直感的には、アクションレベルとエンティティレベルの両方において、ビデオスニペットと言語プロンプトの類似性に対処することがモデルにとってより合理的である。この目的のために、異なる間隔にまたがる動き埋め込みをキャプチャするモーションエンコーダが提案されている。次に相関スコアを用いてRLエージェントの補助報酬信号を構成する。さらに,MineDojoが提供する大規模YouTubeデータベースに基づいて,適切なYouTubeデータセットを構築する。具体的には、2ラウンドのフィルタリング操作により、データセットが十分な必須情報をカバーし、ビデオテキストペアが高い相関性を持つことを保証する。実験により,提案手法はベースラインよりもRLタスクの性能がよいことを示す。

関連論文リスト

Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。 V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文参考訳（メタデータ） (2025-05-23T17:41:14Z)
ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。 ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。 ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文参考訳（メタデータ） (2025-05-21T12:29:40Z)
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。 VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文参考訳（メタデータ） (2025-04-10T10:05:15Z)
ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data [56.217490064597506]
広範に利用可能なビデオデータから学習することで、RLを自動的に誘導するデータ駆動手法を提案し、分析する。インテント条件付き値関数を使用して、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
論文参考訳（メタデータ） (2025-03-23T21:24:33Z)
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [45.82577700155503]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-30T13:52:43Z)
Language-Model-Assisted Bi-Level Programming for Reward Learning from Internet Videos [48.2044649011213]
我々は、強化学習エージェントがインターネットビデオから報酬を学べるように、言語モデル支援のバイレベルプログラミングフレームワークを導入する。このフレームワークは、視覚言語モデル(VLM)が学習者の振る舞いをエキスパートビデオと比較することでフィードバックを提供する上位レベルと、このフィードバックを報酬更新に変換する大規模言語モデル(LLM)の下位レベルである。そこで本研究では,YouTubeビデオから報酬を学習する手法を検証するとともに,提案手法が生物エージェントのエキスパートビデオから効率的に報酬をデザインできることを示した。
論文参考訳（メタデータ） (2024-10-11T22:31:39Z)
Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文参考訳（メタデータ） (2024-09-24T12:24:07Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文参考訳（メタデータ） (2024-02-18T19:26:49Z)
Code as Reward: Empowering Reinforcement Learning with VLMs [37.862999288331906]
本稿では,事前学習した視覚言語モデルから高密度報酬関数を生成するために,Code as Reward (VLM-CaR) というフレームワークを提案する。 VLM-CaRは、VLMを直接クエリする際の計算負担を大幅に削減する。このアプローチによって生成される高密度な報酬は、様々な離散的かつ連続的な環境において非常に正確であることを示す。
論文参考訳（メタデータ） (2024-02-07T11:27:45Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文参考訳（メタデータ） (2022-06-14T20:43:25Z)
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。大規模なVidL事前学習による各種ベースライン法の評価を行った。我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文参考訳（メタデータ） (2021-06-08T18:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。