論文の概要: What You Say Is What You Show: Visual Narration Detection in
Instructional Videos
- arxiv url: http://arxiv.org/abs/2301.02307v2
- Date: Tue, 18 Jul 2023 17:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 17:55:40.424110
- Title: What You Say Is What You Show: Visual Narration Detection in
Instructional Videos
- Title(参考訳): 教育ビデオの視覚的ナレーション検出」とは何か?(動画あり)
- Authors: Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman
- Abstract要約: 本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。
We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
- 参考スコア(独自算出の注目度): 108.77600799637172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Narrated ''how-to'' videos have emerged as a promising data source for a wide
range of learning problems, from learning visual representations to training
robot policies. However, this data is extremely noisy, as the narrations do not
always describe the actions demonstrated in the video. To address this problem
we introduce the novel task of visual narration detection, which entails
determining whether a narration is visually depicted by the actions in the
video. We propose What You Say is What You Show (WYS^2), a method that
leverages multi-modal cues and pseudo-labeling to learn to detect visual
narrations with only weakly labeled data. Our model successfully detects visual
narrations in in-the-wild videos, outperforming strong baselines, and we
demonstrate its impact for state-of-the-art summarization and temporal
alignment of instructional videos.
- Abstract(参考訳): ナレーション付き 'how-to' ビデオは、視覚表現の学習からロボットポリシーのトレーニングに至るまで、幅広い学習問題のための有望なデータソースとして登場した。
しかし、ナレーションはビデオで示される動作を必ずしも記述していないため、このデータは極めて騒がしい。
この問題に対処するために,映像中の行動によってナレーションが視覚的に描写されているかどうかを判定する,視覚的ナレーション検出の新たなタスクを導入する。
本稿では,マルチモーダルな手がかりと擬似ラベルを用いて,弱ラベルデータのみを用いて視覚的なナレーションを検出する手法である(wys^2)を提案する。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
関連論文リスト
- Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。