論文の概要: Induce, Edit, Retrieve:Language Grounded Multimodal Schema for
Instructional Video Retrieval
- arxiv url: http://arxiv.org/abs/2111.09276v1
- Date: Wed, 17 Nov 2021 18:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 13:47:06.352060
- Title: Induce, Edit, Retrieve:Language Grounded Multimodal Schema for
Instructional Video Retrieval
- Title(参考訳): 授業ビデオ検索のための言語基底型マルチモーダルスキーマの誘導,編集,検索
- Authors: Yue Yang, Joongwon Kim, Artemis Panagopoulou, Mark Yatskar, Chris
Callison-Burch
- Abstract要約: 本稿では,Webビデオからスキーマを誘導し,それらを一般化して未知のタスクをキャプチャするシステムを提案する。
本システムでは,(1)関連動画を用いたタスクを与えられた場合,ビデオセグメントとwikiHowからのステップを表わすテキストとをマッチングするための共同ビデオテキストモデルを用いてタスクの初期スキーマを構築し,(2)既存のスキーマ内のテキストを編集するために言語モデルを活用することにより,タスクにスキーマを一般化し,(3)未知のタスク名を問合せとしてゼロショットビデオ検索を行う。
- 参考スコア(独自算出の注目度): 25.075279750185345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Schemata are structured representations of complex tasks that can aid
artificial intelligence by allowing models to break down complex tasks into
intermediate steps. We propose a novel system that induces schemata from web
videos and generalizes them to capture unseen tasks with the goal of improving
video retrieval performance. Our system proceeds in three major phases: (1)
Given a task with related videos, we construct an initial schema for a task
using a joint video-text model to match video segments with text representing
steps from wikiHow; (2) We generalize schemata to unseen tasks by leveraging
language models to edit the text within existing schemata. Through
generalization, we can allow our schemata to cover a more extensive range of
tasks with a small amount of learning data; (3) We conduct zero-shot
instructional video retrieval with the unseen task names as the queries. Our
schema-guided approach outperforms existing methods for video retrieval, and we
demonstrate that the schemata induced by our system are better than those
generated by other models.
- Abstract(参考訳): Schemataは複雑なタスクの構造化された表現で、複雑なタスクを中間ステップに分割することで人工知能を支援する。
本稿では,web ビデオからスキーマタを誘導し,未認識のタスクを汎用化し,映像検索性能の向上を目標とした新しいシステムを提案する。
本システムでは,(1)関連動画のタスクを与えられた場合,ビデオセグメントとwikiHowからのステップを表わすテキストとをマッチングするための共同ビデオテキストモデルを用いてタスクの初期スキーマを構築し,(2)既存のスキーマ内のテキストを編集するために言語モデルを活用することで,タスクを認識できないタスクに一般化する。
一般化により,より広い範囲のタスクを少量の学習データでカバーすることが可能となり,(3)未知のタスク名をクエリとしてゼロショット映像検索を行う。
提案手法は既存のビデオ検索手法よりも優れており,システムによって誘導されるスキーマは,他のモデルより優れていることを示す。
関連論文リスト
- Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Show, Don't Tell: Demonstrations Outperform Descriptions for
Schema-Guided Task-Oriented Dialogue [27.43338545216015]
Show, Don't TellはSeq2seqモデリングのプロンプトフォーマットで、ショートラベル付きサンプルダイアログを使用してスキーマ要素のセマンティクスを示す。
サービス開発者からも同様の努力を必要とする一方で、大規模な言語モデルによるスキーマ表現としてショートサンプルを使用することで、パフォーマンスが向上し、一般化が向上することを示す。
論文 参考訳(メタデータ) (2022-04-08T23:27:18Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。