論文の概要: Audiovisual SlowFast Networks for Video Recognition
- arxiv url: http://arxiv.org/abs/2001.08740v2
- Date: Mon, 9 Mar 2020 00:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 13:14:30.199007
- Title: Audiovisual SlowFast Networks for Video Recognition
- Title(参考訳): 映像認識のためのオーディオビジュアルスローファストネットワーク
- Authors: Fanyi Xiao, Yong Jae Lee, Kristen Grauman, Jitendra Malik, Christoph
Feichtenhofer
- Abstract要約: 本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。
複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。
6つのビデオ行動分類と検出データセットの結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。
- 参考スコア(独自算出の注目度): 140.08143162600354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Audiovisual SlowFast Networks, an architecture for integrated
audiovisual perception. AVSlowFast has Slow and Fast visual pathways that are
deeply integrated with a Faster Audio pathway to model vision and sound in a
unified representation. We fuse audio and visual features at multiple layers,
enabling audio to contribute to the formation of hierarchical audiovisual
concepts. To overcome training difficulties that arise from different learning
dynamics for audio and visual modalities, we introduce DropPathway, which
randomly drops the Audio pathway during training as an effective regularization
technique. Inspired by prior studies in neuroscience, we perform hierarchical
audiovisual synchronization to learn joint audiovisual features. We report
state-of-the-art results on six video action classification and detection
datasets, perform detailed ablation studies, and show the generalization of
AVSlowFast to learn self-supervised audiovisual features. Code will be made
available at: https://github.com/facebookresearch/SlowFast.
- Abstract(参考訳): 本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。
AVSlowFastにはスローとファストの視覚経路があり、より高速なオーディオ経路と深く統合され、視覚と音を統一された表現でモデル化する。
複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。
音声と視覚のモダリティの異なる学習ダイナミクスから生じる学習困難を克服するために,訓練中の音声経路をランダムにドロップするdroppathwayを,効果的な正則化手法として導入する。
神経科学の先行研究に触発され,協調的な視聴覚機能を学ぶために階層的な視聴覚同期を行う。
6つのビデオアクション分類および検出データセットの最先端結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。
コードは、https://github.com/facebookresearch/SlowFast.comで入手できる。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。