論文の概要: Multimodal Subtask Graph Generation from Instructional Videos
- arxiv url: http://arxiv.org/abs/2302.08672v1
- Date: Fri, 17 Feb 2023 03:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 15:57:22.539290
- Title: Multimodal Subtask Graph Generation from Instructional Videos
- Title(参考訳): 授業ビデオからのマルチモーダルサブタスクグラフ生成
- Authors: Yunseok Jang, Sungryull Sohn, Lajanugen Logeswaran, Tiange Luo,
Moontae Lee, Honglak Lee
- Abstract要約: 実世界のタスクは複数の相互依存サブタスクから構成される。
本研究では,タスクを記述する指導ビデオから,そのようなサブタスク間の因果関係をモデル化することを目的とする。
マルチモーダルなサブタスクグラフ生成(MSG2)を提案する。これは、ノイズの多いWebビデオからタスクに関連するタスクのサブタスク間の依存性を定義するサブタスクグラフを構築するアプローチである。
- 参考スコア(独自算出の注目度): 51.96856868195961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world tasks consist of multiple inter-dependent subtasks (e.g., a dirty
pan needs to be washed before it can be used for cooking). In this work, we aim
to model the causal dependencies between such subtasks from instructional
videos describing the task. This is a challenging problem since complete
information about the world is often inaccessible from videos, which demands
robust learning mechanisms to understand the causal structure of events. We
present Multimodal Subtask Graph Generation (MSG2), an approach that constructs
a Subtask Graph defining the dependency between a task's subtasks relevant to a
task from noisy web videos. Graphs generated by our multimodal approach are
closer to human-annotated graphs compared to prior approaches. MSG2 further
performs the downstream task of next subtask prediction 85% and 30% more
accurately than recent video transformer models in the ProceL and CrossTask
datasets, respectively.
- Abstract(参考訳): 現実世界のタスクは複数の依存サブタスクから構成される(例えば、料理に使える前に汚れた鍋を洗う必要がある)。
本研究では,タスクを記述する指導ビデオから,そのようなサブタスク間の因果関係をモデル化することを目的とする。
イベントの因果構造を理解するために、堅牢な学習メカニズムを必要とするビデオから、世界の完全な情報がしばしばアクセスできないため、これは難しい問題である。
我々は,タスクのサブタスク間の依存性を定義するサブタスクグラフを構成する手法であるマルチモーダル・サブタスクグラフ生成 (msg2) を提案する。
マルチモーダルなアプローチによって生成されたグラフは、以前のアプローチと比べて、人間のアノテーション付きグラフに近い。
MSG2はさらに、ProceLとCrossTaskデータセットの最近のビデオトランスフォーマーモデルよりも、次のサブタスク予測のダウンストリームタスクを85%と30%正確に実行する。
関連論文リスト
- DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning [2.4121373594852846]
マルチタスク学習は、視覚的なタスクが、共同トレーニング中に他のタスクから豊富な共有可能な知識を取得するようにする。
上記の問題に対処するために, Heterogenous data video multi-task prompt learning (VMTL) 法を提案する。
Double-Layers Mapper(DLM)は、共有可能な知識を視覚的プロンプトSに抽出し、プライマリタスクの表現と整合させる。
論文 参考訳(メタデータ) (2024-08-29T01:25:36Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Graph Representation Learning for Multi-Task Settings: a Meta-Learning
Approach [5.629161809575013]
メタ学習に基づくグラフ表現学習のための新しい学習戦略を提案する。
本手法は,複数タスクの同時実行学習において発生する問題を回避する。
我々は,本手法で訓練したモデルが生成した埋め込みを,単一タスクとマルチタスクの両エンドツーエンドモデルに匹敵する,あるいは驚くほど高いパフォーマンスで複数のタスクを実行できることを示す。
論文 参考訳(メタデータ) (2022-01-10T12:58:46Z) - Multi-Relational Graph based Heterogeneous Multi-Task Learning in
Community Question Answering [28.91133131424694]
我々はHMTGIN(Heterogeneous Multi-Task Graph Isomorphism Network)と呼ばれるマルチリレーショナルグラフに基づくマルチタスク学習モデルを開発する。
各トレーニングフォワードパスでは、HMTGINは入力されたCQAフォーラムグラフをグラフ同型ネットワークの拡張によって埋め込み、接続をスキップする。
評価において、埋め込みは異なるタスク固有の出力層間で共有され、対応する予測を行う。
論文 参考訳(メタデータ) (2021-09-04T03:19:20Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。