論文の概要: Learning to Ground Instructional Articles in Videos through Narrations
- arxiv url: http://arxiv.org/abs/2306.03802v1
- Date: Tue, 6 Jun 2023 15:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 14:35:40.429186
- Title: Learning to Ground Instructional Articles in Videos through Narrations
- Title(参考訳): ナレーションを通したビデオの授業記事への学習
- Authors: Effrosyni Mavroudi, Triantafyllos Afouras, Lorenzo Torresani
- Abstract要約: ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
- 参考スコア(独自算出の注目度): 50.3463147014498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present an approach for localizing steps of procedural
activities in narrated how-to videos. To deal with the scarcity of labeled data
at scale, we source the step descriptions from a language knowledge base
(wikiHow) containing instructional articles for a large variety of procedural
tasks. Without any form of manual supervision, our model learns to temporally
ground the steps of procedural articles in how-to videos by matching three
modalities: frames, narrations, and step descriptions. Specifically, our method
aligns steps to video by fusing information from two distinct pathways: i) {\em
direct} alignment of step descriptions to frames, ii) {\em indirect} alignment
obtained by composing steps-to-narrations with narrations-to-video
correspondences. Notably, our approach performs global temporal grounding of
all steps in an article at once by exploiting order information, and is trained
with step pseudo-labels which are iteratively refined and aggressively
filtered. In order to validate our model we introduce a new evaluation
benchmark -- HT-Step -- obtained by manually annotating a 124-hour subset of
HowTo100M\footnote{A test server is accessible at
\url{https://eval.ai/web/challenges/challenge-page/2082}.} with steps sourced
from wikiHow articles. Experiments on this benchmark as well as zero-shot
evaluations on CrossTask demonstrate that our multi-modality alignment yields
dramatic gains over several baselines and prior works. Finally, we show that
our inner module for matching narration-to-video outperforms by a large margin
the state of the art on the HTM-Align narration-video alignment benchmark.
- Abstract(参考訳): 本稿では,ナレーション付きハウツービデオにおける手続き活動の段階をローカライズするためのアプローチを提案する。
大規模にラベル付けされたデータの不足に対処するため,多種多様な手続きタスクのための指導記事を含む言語知識ベース(wikiHow)からステップ記述を抽出した。
手動による監督がなければ、我々のモデルは3つのモダリティ(フレーム、ナレーション、ステップ記述)をマッチングすることにより、プロシージャ記事のステップをハウツービデオに時間的に基礎づけることを学ぶ。
具体的には,2つの異なる経路からの情報を融合することで,映像にステップを合わせる。
i) ステップ記述のフレームへのアライメント
二 ナレーション対ビデオ対応のステップからナレーションまでを合成して得られる間接的アライメント
特に,本手法は順序情報を利用して記事中のすべてのステップを同時にグローバルな時間的接地を行い,反復的に洗練され,積極的にフィルタリングされるステップ擬似ラベルを用いて訓練する。
モデルを検証するために、howto100m\footnote{a test server is accessible at \url{https://eval.ai/web/challenges/challenge-page/2082}で124時間のサブセットを手動でアノテートして得られる、新しい評価ベンチマーク、ht-stepを紹介します。
WikiHowの記事から引用したステップで。
このベンチマークとクロスタスクにおけるゼロショット評価の実験は、我々のマルチモダリティアライメントがいくつかのベースラインと以前の作業に対して劇的な向上をもたらすことを示している。
最後に, HTM-Align narration-videoアライメントベンチマークにおいて, ナレーションとビデオのマッチングを行う内部モジュールの精度は, 高い差が認められた。
関連論文リスト
- Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment [53.12952107996463]
本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。
手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
論文 参考訳(メタデータ) (2024-09-22T18:40:55Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos [47.03252542488226]
本稿では、ビデオ中の命令ステップを検出し、ローカライズする自己教師型モデルであるStepFormerを紹介する。
我々は、自動生成した字幕を唯一の監督源として、大規模な指導ビデオのデータセットで学習する。
本モデルでは,従来の教師なしおよび弱教師付きアプローチにおいて,ステップ検出とローカライゼーションにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-04-26T03:37:28Z) - Learning Procedure-aware Video Representation from Instructional Videos
and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。
本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文 参考訳(メタデータ) (2023-03-31T07:02:26Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。