Fugu-MT 論文翻訳(概要): InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models

論文の概要: InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models

arxiv url: http://arxiv.org/abs/2501.12231v1
Date: Tue, 21 Jan 2025 15:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.712389
Title: InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models
Title（参考訳）: InsTALL:マルチモーダル大言語モデルを用いたコンテキスト認識型インストラクショナルタスク支援
Authors: Pha Nguyen, Sailik Sengupta, Girik Malik, Arshit Gupta, Bonan Min,
Abstract要約: マルチモーダルな大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナル・タスク・アシスタントを開発した。 InsTALLは、そのタスクに関連するユーザクエリに対して、リアルタイムで応答する。 InsTALLはマルチモーダルアクティビティ理解のためのサブタスクを提案する。
参考スコア（独自算出の注目度）: 11.913271486031201
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The improved competence of generative models can help building multi-modal virtual assistants that leverage modalities beyond language. By observing humans performing multi-step tasks, one can build assistants that have situational awareness of actions and tasks being performed, enabling them to cater assistance based on this understanding. In this paper, we develop a Context-aware Instructional Task Assistant with Multi-modal Large Language Models (InsTALL) that leverages an online visual stream (e.g. a user's screen share or video recording) and responds in real-time to user queries related to the task at hand. To enable useful assistance, InsTALL 1) trains a multi-modal model on task videos and paired textual data, and 2) automatically extracts task graph from video data and leverages it at training and inference time. We show InsTALL achieves state-of-the-art performance across proposed sub-tasks considered for multimodal activity understanding -- task recognition (TR), action recognition (AR), next action prediction (AP), and plan prediction (PP) -- and outperforms existing baselines on two novel sub-tasks related to automatic error identification.
Abstract（参考訳）: 生成モデルの能力向上は、言語以外のモダリティを活用するマルチモーダルバーチャルアシスタントの構築に役立つ。多段階のタスクを行う人間を観察することにより、行動やタスクの状況を認識したアシスタントを構築することができ、この理解に基づいて支援を行うことができる。本稿では,マルチモーダル大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナルタスクアシスタントを開発した。有用なアシストを可能にするために、InsTALL 1)タスクビデオとペアのテキストデータにマルチモーダルモデルをトレーニングし、 2)ビデオデータからタスクグラフを自動的に抽出し,トレーニングや推論時に活用する。 InsTALLは、タスク認識(TR)、アクション認識(AR)、次のアクション予測(AP)、計画予測(PP)といったマルチモーダルアクティビティ理解のための提案されたサブタスクに対して、最先端のパフォーマンスを実現し、自動エラー識別に関連する2つの新しいサブタスクに対して、既存のベースラインを上回ります。

関連論文リスト

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Multitask Multimodal Prompted Training for Interactive Embodied Task Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文参考訳（メタデータ） (2023-11-07T15:27:52Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。 FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文参考訳（メタデータ） (2023-02-19T03:48:46Z)
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文参考訳（メタデータ） (2022-12-08T17:07:09Z)
Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。 MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。 20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文参考訳（メタデータ） (2022-11-21T18:41:44Z)
Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-08-29T10:19:10Z)
Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文参考訳（メタデータ） (2021-04-28T16:45:56Z)
Multi-Task Reinforcement Learning with Context-based Representations [43.93866702838777]
本稿では,複数のタスク群にまたがる複数のコンテキスト依存・構成可能な表現を用いて,知識伝達の効率的な手法を提案する。提案手法を用いて,50種類のロボット操作タスクからなるマルチタスク・ベンチマークであるMeta-Worldの最先端結果を得る。
論文参考訳（メタデータ） (2021-02-11T18:41:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。