論文の概要: Weakly-Supervised Action Detection Guided by Audio Narration
- arxiv url: http://arxiv.org/abs/2205.05895v1
- Date: Thu, 12 May 2022 06:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:44:35.808606
- Title: Weakly-Supervised Action Detection Guided by Audio Narration
- Title(参考訳): 音声ナレーションによる弱教師付き行動検出
- Authors: Keren Ye and Adriana Kovashka
- Abstract要約: ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
- 参考スコア(独自算出の注目度): 50.4318060593995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos are more well-organized curated data sources for visual concept
learning than images. Unlike the 2-dimensional images which only involve the
spatial information, the additional temporal dimension bridges and synchronizes
multiple modalities. However, in most video detection benchmarks, these
additional modalities are not fully utilized. For example, EPIC Kitchens is the
largest dataset in first-person (egocentric) vision, yet it still relies on
crowdsourced information to refine the action boundaries to provide
instance-level action annotations.
We explored how to eliminate the expensive annotations in video detection
data which provide refined boundaries. We propose a model to learn from the
narration supervision and utilize multimodal features, including RGB, motion
flow, and ambient sound. Our model learns to attend to the frames related to
the narration label while suppressing the irrelevant frames from being used.
Our experiments show that noisy audio narration suffices to learn a good action
detection model, thus reducing annotation expenses.
- Abstract(参考訳): ビデオは画像よりも視覚概念学習のための、よりよく整理されたデータソースである。
空間情報のみを含む2次元画像とは異なり、追加の時間次元ブリッジは複数のモードを同期する。
しかし、ほとんどのビデオ検出ベンチマークでは、これらの追加のモダリティは十分に活用されていない。
例えば、EPIC Kitchensは、ファーストパーソン(エゴセントリックな)ビジョンにおける最大のデータセットであるが、それでもアクション境界を洗練してインスタンスレベルのアクションアノテーションを提供するために、クラウドソースされた情報に依存している。
我々は,洗練された境界を提供する映像検出データの高価なアノテーションを排除する方法について検討した。
本稿では,ナレーション監督から学び,rgb,モーションフロー,環境音といったマルチモーダル特徴を活用できるモデルを提案する。
本モデルは,無関係なフレームの使用を抑えつつ,ナレーションラベルに関連するフレームへの参加を学習する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
関連論文リスト
- Few-shot Action Recognition via Intra- and Inter-Video Information
Maximization [28.31541961943443]
本稿では,ビデオ情報最大化(VIM)という,アクション認識のための新しいフレームワークを提案する。
VIMは適応型時空間ビデオサンプリング器と時空間行動アライメントモデルを備える。
VIMは、限られたビデオデータからの映像情報の識別性を最大化するために機能する。
論文 参考訳(メタデータ) (2023-05-10T13:05:43Z) - What You Say Is What You Show: Visual Narration Detection in
Instructional Videos [108.77600799637172]
本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。
We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
論文 参考訳(メタデータ) (2023-01-05T21:43:19Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Where and When: Space-Time Attention for Audio-Visual Explanations [42.093794819606444]
音声と視覚データの相乗的なダイナミクスを空間と時間の両方で明らかにする、新しい時空注目ネットワークを提案する。
本モデルでは,音声・視覚的映像イベントの予測を可能とし,関連する視覚的手がかりがどこに現れるのかをローカライズすることで,その決定を正当化する。
論文 参考訳(メタデータ) (2021-05-04T14:16:55Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。