論文の概要: Induce, Edit, Retrieve:Language Grounded Multimodal Schema for
Instructional Video Retrieval
- arxiv url: http://arxiv.org/abs/2111.09276v1
- Date: Wed, 17 Nov 2021 18:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 13:47:06.352060
- Title: Induce, Edit, Retrieve:Language Grounded Multimodal Schema for
Instructional Video Retrieval
- Title(参考訳): 授業ビデオ検索のための言語基底型マルチモーダルスキーマの誘導,編集,検索
- Authors: Yue Yang, Joongwon Kim, Artemis Panagopoulou, Mark Yatskar, Chris
Callison-Burch
- Abstract要約: 本稿では,Webビデオからスキーマを誘導し,それらを一般化して未知のタスクをキャプチャするシステムを提案する。
本システムでは,(1)関連動画を用いたタスクを与えられた場合,ビデオセグメントとwikiHowからのステップを表わすテキストとをマッチングするための共同ビデオテキストモデルを用いてタスクの初期スキーマを構築し,(2)既存のスキーマ内のテキストを編集するために言語モデルを活用することにより,タスクにスキーマを一般化し,(3)未知のタスク名を問合せとしてゼロショットビデオ検索を行う。
- 参考スコア(独自算出の注目度): 25.075279750185345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Schemata are structured representations of complex tasks that can aid
artificial intelligence by allowing models to break down complex tasks into
intermediate steps. We propose a novel system that induces schemata from web
videos and generalizes them to capture unseen tasks with the goal of improving
video retrieval performance. Our system proceeds in three major phases: (1)
Given a task with related videos, we construct an initial schema for a task
using a joint video-text model to match video segments with text representing
steps from wikiHow; (2) We generalize schemata to unseen tasks by leveraging
language models to edit the text within existing schemata. Through
generalization, we can allow our schemata to cover a more extensive range of
tasks with a small amount of learning data; (3) We conduct zero-shot
instructional video retrieval with the unseen task names as the queries. Our
schema-guided approach outperforms existing methods for video retrieval, and we
demonstrate that the schemata induced by our system are better than those
generated by other models.
- Abstract(参考訳): Schemataは複雑なタスクの構造化された表現で、複雑なタスクを中間ステップに分割することで人工知能を支援する。
本稿では,web ビデオからスキーマタを誘導し,未認識のタスクを汎用化し,映像検索性能の向上を目標とした新しいシステムを提案する。
本システムでは,(1)関連動画のタスクを与えられた場合,ビデオセグメントとwikiHowからのステップを表わすテキストとをマッチングするための共同ビデオテキストモデルを用いてタスクの初期スキーマを構築し,(2)既存のスキーマ内のテキストを編集するために言語モデルを活用することで,タスクを認識できないタスクに一般化する。
一般化により,より広い範囲のタスクを少量の学習データでカバーすることが可能となり,(3)未知のタスク名をクエリとしてゼロショット映像検索を行う。
提案手法は既存のビデオ検索手法よりも優れており,システムによって誘導されるスキーマは,他のモデルより優れていることを示す。
関連論文リスト
- Show and Guide: Instructional-Plan Grounded Vision and Language Model [9.84151565227816]
MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。
会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。
MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-27T18:20:24Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension [29.209124422827873]
日常生活に関連する8つの領域における560の指導課題の3.5Kビデオを含むGUIDEデータセットを提案する。
我々は、各指導課題にガイドラインを付け、すべてのタスク関連ビデオで共有される共通パターンを表現する。
提案するベンチマークは,モデルの理解能力を評価するための3つのサブタスクからなる。
論文 参考訳(メタデータ) (2024-06-26T10:24:00Z) - MoReVQA: Exploring Modular Reasoning Models for Video Question Answering [101.25249395748794]
本稿では,ビデオ質問応答(videoQA)の課題を,分解した多段階モジュラー推論フレームワークを用いて解決する。
従来の単一ステージ計画手法とは異なり、イベント、グラウンドステージ、最終的な推論ステージからなるマルチステージシステムと外部メモリとの組み合わせを提案する。
論文 参考訳(メタデータ) (2024-04-09T17:59:31Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。