論文の概要: GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension
- arxiv url: http://arxiv.org/abs/2406.18227v1
- Date: Wed, 26 Jun 2024 10:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:49:09.633196
- Title: GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension
- Title(参考訳): GUIDE: インストラクショナルビデオ理解のためのガイドラインガイド付きデータセット
- Authors: Jiafeng Liang, Shixin Jiang, Zekun Wang, Haojie Pan, Zerui Chen, Zheng Chu, Ming Liu, Ruiji Fu, Zhongyuan Wang, Bing Qin,
- Abstract要約: 日常生活に関連する8つの領域における560の指導課題の3.5Kビデオを含むGUIDEデータセットを提案する。
我々は、各指導課題にガイドラインを付け、すべてのタスク関連ビデオで共有される共通パターンを表現する。
提案するベンチマークは,モデルの理解能力を評価するための3つのサブタスクからなる。
- 参考スコア(独自算出の注目度): 29.209124422827873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are substantial instructional videos on the Internet, which provide us tutorials for completing various tasks. Existing instructional video datasets only focus on specific steps at the video level, lacking experiential guidelines at the task level, which can lead to beginners struggling to learn new tasks due to the lack of relevant experience. Moreover, the specific steps without guidelines are trivial and unsystematic, making it difficult to provide a clear tutorial. To address these problems, we present the GUIDE (Guideline-Guided) dataset, which contains 3.5K videos of 560 instructional tasks in 8 domains related to our daily life. Specifically, we annotate each instructional task with a guideline, representing a common pattern shared by all task-related videos. On this basis, we annotate systematic specific steps, including their associated guideline steps, specific step descriptions and timestamps. Our proposed benchmark consists of three sub-tasks to evaluate comprehension ability of models: (1) Step Captioning: models have to generate captions for specific steps from videos. (2) Guideline Summarization: models have to mine the common pattern in task-related videos and summarize a guideline from them. (3) Guideline-Guided Captioning: models have to generate captions for specific steps under the guide of guideline. We evaluate plenty of foundation models with GUIDE and perform in-depth analysis. Given the diversity and practicality of GUIDE, we believe that it can be used as a better benchmark for instructional video comprehension.
- Abstract(参考訳): インターネット上には、様々なタスクを完了するためのチュートリアルを提供する、相当な指導ビデオがある。
既存の指導ビデオデータセットは、ビデオレベルでの特定のステップのみに焦点を当てており、タスクレベルでの経験的なガイドラインが欠如しているため、初心者は関連する経験の欠如のために新しいタスクを学ぶのに苦労する可能性がある。
さらに、ガイドラインのない特定のステップは自明で非体系的であり、明確なチュートリアルを提供することが難しい。
このような問題に対処するため,GUIDE(Guideline-Guided)データセットを提示する。
具体的には,すべてのタスク関連ビデオで共有される共通パターンを表すガイドラインを用いて,各命令タスクに注釈を付ける。
そこで,本論文では,関連するガイドラインステップ,具体的なステップ記述,タイムスタンプなど,体系的な具体的なステップについて解説する。
提案するベンチマークは,モデルの理解能力を評価するための3つのサブタスクから構成される。(1)ステップキャプション:モデルがビデオから特定のステップのキャプションを生成する。
2) ガイドライン要約: モデルはタスク関連ビデオの共通パターンをマイニングし,それらからガイドラインを要約する必要がある。
(3) ガイドライン誘導キャプション: モデルはガイドラインのガイドの下で特定のステップのキャプションを生成する必要がある。
GUIDEを用いて基礎モデルを多数評価し,詳細な解析を行う。
GUIDEの多様性と実用性を考えると、より優れたビデオ理解のベンチマークとして利用できると信じている。
関連論文リスト
- Multimodal Language Models for Domain-Specific Procedural Video Summarization [0.0]
本研究では,ビデオ要約とステップ・バイ・ステップ・インストラクション生成のためのマルチモーダルモデルについて検討する。
提案手法は,料理や医療処置など特定の領域におけるパフォーマンスを向上させるための微調整のTimeChatに焦点をあてる。
以上の結果から, ドメイン固有の手続きデータに微調整を施すと, TimeChatは長めの動画において, 重要な指導ステップの抽出と要約を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2024-07-07T15:50:46Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - Induce, Edit, Retrieve:Language Grounded Multimodal Schema for
Instructional Video Retrieval [25.075279750185345]
本稿では,Webビデオからスキーマを誘導し,それらを一般化して未知のタスクをキャプチャするシステムを提案する。
本システムでは,(1)関連動画を用いたタスクを与えられた場合,ビデオセグメントとwikiHowからのステップを表わすテキストとをマッチングするための共同ビデオテキストモデルを用いてタスクの初期スキーマを構築し,(2)既存のスキーマ内のテキストを編集するために言語モデルを活用することにより,タスクにスキーマを一般化し,(3)未知のタスク名を問合せとしてゼロショットビデオ検索を行う。
論文 参考訳(メタデータ) (2021-11-17T18:20:04Z) - A Benchmark for Structured Procedural Knowledge Extraction from Cooking
Videos [126.66212285239624]
本稿では,調理ビデオから抽出した構造化手続き的知識のベンチマークを提案する。
手動で注釈付けしたオープン語彙リソースには、356の指導的調理ビデオと15,523のビデオクリップ/文レベルのアノテーションが含まれています。
論文 参考訳(メタデータ) (2020-05-02T05:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。