Fugu-MT 論文翻訳(概要): Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction

論文の概要: Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction

arxiv url: http://arxiv.org/abs/2402.04154v7
Date: Mon, 18 Nov 2024 15:31:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 07:18:18.65462
Title: Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction
Title（参考訳）: Read to Play (R2-Play):マルチモーダルゲーム指導による決定変換器
Authors: Yonggang Jin, Ge Zhang, Hao Zhao, Tianyu Zheng, Jarvi Guo, Liuyu Xiang, Shawn Yue, Stephen W. Huang, Zhaofeng He, Jie Fu,
Abstract要約: 本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイ指導の理解を可能にした。命令チューニングを決定変換器に組み込むためのマルチモーダルゲーム命令セットを構築する。
参考スコア（独自算出の注目度）: 22.31940101833938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing a generalist agent is a longstanding objective in artificial intelligence. Previous efforts utilizing extensive offline datasets from various tasks demonstrate remarkable performance in multitasking scenarios within Reinforcement Learning. However, these works encounter challenges in extending their capabilities to new tasks. Recent approaches integrate textual guidance or visual trajectory into decision networks to provide task-specific contextual cues, representing a promising direction. However, it is observed that relying solely on textual guidance or visual trajectory is insufficient for accurately conveying the contextual information of tasks. This paper explores enhanced forms of task guidance for agents, enabling them to comprehend gameplay instructions, thereby facilitating a "read-to-play" capability. Drawing inspiration from the success of multimodal instruction tuning in visual tasks, we treat the visual-based RL task as a long-horizon vision task and construct a set of multimodal game instructions to incorporate instruction tuning into a decision transformer. Experimental results demonstrate that incorporating multimodal game instructions significantly enhances the decision transformer's multitasking and generalization capabilities.
Abstract（参考訳）: 汎用エージェントの開発は、人工知能の長年の目標である。さまざまなタスクから広範なオフラインデータセットを活用するこれまでの取り組みは、強化学習内のマルチタスクシナリオにおいて、顕著なパフォーマンスを示している。しかしながら、これらの作業は、新しいタスクに機能を拡張する際の課題に直面します。近年,テキスト指導や視覚的軌跡を意思決定ネットワークに統合し,タスク固有の文脈情報を提供し,有望な方向を示す手法が提案されている。しかし,タスクの文脈情報を正確に伝達するには,テキスト指導や視覚的軌跡のみに頼るだけでは不十分であることが観察された。本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイの指示を理解することによって,「読み上げ」機能を実現する。視覚タスクにおけるマルチモーダル・インストラクション・チューニングの成功からインスピレーションを得て、視覚ベースのRLタスクを長期視覚タスクとして扱い、インストラクション・チューニングを決定変換器に組み込むためのマルチモーダル・ゲーム・インストラクションのセットを構築する。実験により,マルチモーダルゲーム命令を組み込むことで,決定変換器のマルチタスクと一般化能力を大幅に向上することが示された。

関連論文リスト

TalkFashion: Intelligent Virtual Try-On Assistant Based on Multimodal Large Language Model [19.347698118395673]
本稿では,テキスト命令のみによる多機能仮想試行を実現する方法について述べる。本研究では,大規模言語モデルの強力な理解能力を活用するインテリジェントな試行アシスタントであるTalkFashionを提案する。マルチモーダルモデルの助けを借りて、完全に自動化されたローカル編集を実現し、編集作業の柔軟性を向上させる。
論文参考訳（メタデータ） (2025-07-08T08:51:56Z)
Is Visual in-Context Learning for Compositional Medical Tasks within Reach? [68.56630652862293]
本稿では、1つのモデルで複数のタスクを処理できるビジュアル・イン・コンテキスト・ラーニングの可能性について検討する。本稿では,合成合成タスク生成エンジンを用いたコンテキスト内学習者の学習方法を提案する。
論文参考訳（メタデータ） (2025-07-01T15:32:23Z)
InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models [11.913271486031201]
マルチモーダルな大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナル・タスク・アシスタントを開発した。 InsTALLは、そのタスクに関連するユーザクエリに対して、リアルタイムで応答する。 InsTALLはマルチモーダルアクティビティ理解のためのサブタスクを提案する。
論文参考訳（メタデータ） (2025-01-21T15:55:06Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。 MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。 20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文参考訳（メタデータ） (2022-11-21T18:41:44Z)
Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-24T17:46:47Z)
Multimedia Generative Script Learning for Task Planning [58.73725388387305]
我々は,テキストと視覚の両モードの履歴状態を追跡することによって,次のステップを生成するために,マルチメディア生成スクリプト学習という新しいタスクを提案する。この課題は、画像中の視覚状態をキャプチャするマルチメディアチャレンジ、目に見えないタスクを実行するための誘導チャレンジ、個々のステップで異なる情報をカバーする多様性チャレンジの3つの側面において難しい。実験の結果,本手法は強いベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2022-08-25T19:04:28Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。マルチタスクである視覚言語ジョイントモデルを事前訓練する。その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文参考訳（メタデータ） (2022-05-02T14:53:13Z)
Visual-and-Language Navigation: A Survey and Taxonomy [1.0742675209112622]
本稿では,ビジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクに関する総合的な調査を行う。命令が与えられたら、タスクはシングルターンとマルチターンに分けられる。この分類学は、研究者が特定のタスクの要点をよりよく把握し、将来の研究の方向性を特定することを可能にする。
論文参考訳（メタデータ） (2021-08-26T01:51:18Z)
Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。エピソード変換器(E.T.)を提案する。言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文参考訳（メタデータ） (2021-05-13T17:51:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。