Fugu-MT 論文翻訳(概要): Induce, Edit, Retrieve:Language Grounded Multimodal Schema for Instructional Video Retrieval

論文の概要: Induce, Edit, Retrieve:Language Grounded Multimodal Schema for Instructional Video Retrieval

arxiv url: http://arxiv.org/abs/2111.09276v1
Date: Wed, 17 Nov 2021 18:20:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-18 13:47:06.352060
Title: Induce, Edit, Retrieve:Language Grounded Multimodal Schema for Instructional Video Retrieval
Title（参考訳）: 授業ビデオ検索のための言語基底型マルチモーダルスキーマの誘導,編集,検索
Authors: Yue Yang, Joongwon Kim, Artemis Panagopoulou, Mark Yatskar, Chris Callison-Burch
Abstract要約: 本稿では,Webビデオからスキーマを誘導し,それらを一般化して未知のタスクをキャプチャするシステムを提案する。本システムでは,(1)関連動画を用いたタスクを与えられた場合,ビデオセグメントとwikiHowからのステップを表わすテキストとをマッチングするための共同ビデオテキストモデルを用いてタスクの初期スキーマを構築し,(2)既存のスキーマ内のテキストを編集するために言語モデルを活用することにより,タスクにスキーマを一般化し,(3)未知のタスク名を問合せとしてゼロショットビデオ検索を行う。
参考スコア（独自算出の注目度）: 25.075279750185345
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Schemata are structured representations of complex tasks that can aid artificial intelligence by allowing models to break down complex tasks into intermediate steps. We propose a novel system that induces schemata from web videos and generalizes them to capture unseen tasks with the goal of improving video retrieval performance. Our system proceeds in three major phases: (1) Given a task with related videos, we construct an initial schema for a task using a joint video-text model to match video segments with text representing steps from wikiHow; (2) We generalize schemata to unseen tasks by leveraging language models to edit the text within existing schemata. Through generalization, we can allow our schemata to cover a more extensive range of tasks with a small amount of learning data; (3) We conduct zero-shot instructional video retrieval with the unseen task names as the queries. Our schema-guided approach outperforms existing methods for video retrieval, and we demonstrate that the schemata induced by our system are better than those generated by other models.
Abstract（参考訳）: Schemataは複雑なタスクの構造化された表現で、複雑なタスクを中間ステップに分割することで人工知能を支援する。本稿では,web ビデオからスキーマタを誘導し,未認識のタスクを汎用化し,映像検索性能の向上を目標とした新しいシステムを提案する。本システムでは,(1)関連動画のタスクを与えられた場合,ビデオセグメントとwikiHowからのステップを表わすテキストとをマッチングするための共同ビデオテキストモデルを用いてタスクの初期スキーマを構築し,(2)既存のスキーマ内のテキストを編集するために言語モデルを活用することで,タスクを認識できないタスクに一般化する。一般化により,より広い範囲のタスクを少量の学習データでカバーすることが可能となり,(3)未知のタスク名をクエリとしてゼロショット映像検索を行う。提案手法は既存のビデオ検索手法よりも優れており,システムによって誘導されるスキーマは,他のモデルより優れていることを示す。

関連論文リスト

SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。 SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文参考訳（メタデータ） (2024-11-28T08:07:32Z)
Show and Guide: Instructional-Plan Grounded Vision and Language Model [9.84151565227816]
MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。 MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
論文参考訳（メタデータ） (2024-09-27T18:20:24Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension [29.209124422827873]
日常生活に関連する8つの領域における560の指導課題の3.5Kビデオを含むGUIDEデータセットを提案する。我々は、各指導課題にガイドラインを付け、すべてのタスク関連ビデオで共有される共通パターンを表現する。提案するベンチマークは,モデルの理解能力を評価するための3つのサブタスクからなる。
論文参考訳（メタデータ） (2024-06-26T10:24:00Z)
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering [101.25249395748794]
本稿では,ビデオ質問応答(videoQA)の課題を,分解した多段階モジュラー推論フレームワークを用いて解決する。従来の単一ステージ計画手法とは異なり、イベント、グラウンドステージ、最終的な推論ステージからなるマルチステージシステムと外部メモリとの組み合わせを提案する。
論文参考訳（メタデータ） (2024-04-09T17:59:31Z)
Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文参考訳（メタデータ） (2023-03-23T17:59:54Z)
MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文参考訳（メタデータ） (2023-02-16T04:00:03Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
Referring Transformer: A One-step Approach to Multi-task Visual Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文参考訳（メタデータ） (2021-06-06T10:53:39Z)
Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文参考訳（メタデータ） (2020-06-29T17:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。