論文の概要: AudioVisual Video Summarization
- arxiv url: http://arxiv.org/abs/2105.07667v1
- Date: Mon, 17 May 2021 08:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:43:58.593510
- Title: AudioVisual Video Summarization
- Title(参考訳): オーディオビジュアル映像要約
- Authors: Bin Zhao, Maoguo Gong, Xuelong Li
- Abstract要約: ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
- 参考スコア(独自算出の注目度): 103.47766795086206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio and vision are two main modalities in video data. Multimodal learning,
especially for audiovisual learning, has drawn considerable attention recently,
which can boost the performance of various computer vision tasks. However, in
video summarization, existing approaches just exploit the visual information
while neglect the audio information. In this paper, we argue that the audio
modality can assist vision modality to better understand the video content and
structure, and further benefit the summarization process. Motivated by this, we
propose to jointly exploit the audio and visual information for the video
summarization task, and develop an AudioVisual Recurrent Network (AVRN) to
achieve this. Specifically, the proposed AVRN can be separated into three
parts: 1) the two-stream LSTM is utilized to encode the audio and visual
feature sequentially by capturing their temporal dependency. 2) the audiovisual
fusion LSTM is employed to fuse the two modalities by exploring the latent
consistency between them. 3) the self-attention video encoder is adopted to
capture the global dependency in the video. Finally, the fused audiovisual
information, and the integrated temporal and global dependencies are jointly
used to predict the video summary. Practically, the experimental results on the
two benchmarks, \emph{i.e.,} SumMe and TVsum, have demonstrated the
effectiveness of each part, and the superiority of AVRN compared to those
approaches just exploiting visual information for video summarization.
- Abstract(参考訳): オーディオと視覚はビデオデータの主要な2つのモードである。
近年,マルチモーダル学習,特にオーディオ視覚学習が注目されており,様々なコンピュータビジョンタスクの性能向上に寄与している。
しかし、ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけである。
本稿では,音声モダリティが視覚モダリティの助けとなり,映像の内容や構造をよりよく理解し,要約のプロセスにさらなる利益をもたらすことを論じる。
そこで我々は,映像要約タスクの音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
具体的には、提案したAVRNは、1)2ストリームLSTMを使用して、その時間依存性をキャプチャすることで、音声と視覚の特徴を逐次符号化する。
2) 音像融合LSTMを用いて2つのモードを融合させ, それらの間の潜時的整合性を探究する。
3) 自己注意型ビデオエンコーダを用いて, 映像のグローバルな依存性を捉える。
最後に、融合音声視覚情報と統合時間的およびグローバルな依存関係を用いて、映像要約を予測する。
実際、2つのベンチマークの実験的結果である \emph{i,e} summe と tvsum は、映像要約に視覚情報を活用したアプローチと比較して、各部分の有効性と avrn の優位性を実証した。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Role of Audio in Audio-Visual Video Summarization [8.785359786012302]
本稿では,GRUとアテンションベースネットワークを融合した4種類の音声・視覚情報の統合を目的とした,新しい音声・視覚映像要約フレームワークを提案する。
視聴覚映像要約のためのF1スコアとKendall-tauスコアの改善を実現するTVSumデータセットの実験的検討
論文 参考訳(メタデータ) (2022-12-02T09:11:49Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Audiovisual SlowFast Networks for Video Recognition [140.08143162600354]
本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。
複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。
6つのビデオ行動分類と検出データセットの結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。
論文 参考訳(メタデータ) (2020-01-23T18:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。