論文の概要: Role of Audio in Audio-Visual Video Summarization
- arxiv url: http://arxiv.org/abs/2212.01040v1
- Date: Fri, 2 Dec 2022 09:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 18:02:10.195389
- Title: Role of Audio in Audio-Visual Video Summarization
- Title(参考訳): 視聴覚映像要約における音声の役割
- Authors: Ibrahim Shoer, Berkay Kopru, Engin Erzin
- Abstract要約: 本稿では,GRUとアテンションベースネットワークを融合した4種類の音声・視覚情報の統合を目的とした,新しい音声・視覚映像要約フレームワークを提案する。
視聴覚映像要約のためのF1スコアとKendall-tauスコアの改善を実現するTVSumデータセットの実験的検討
- 参考スコア(独自算出の注目度): 8.785359786012302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization attracts attention for efficient video representation,
retrieval, and browsing to ease volume and traffic surge problems. Although
video summarization mostly uses the visual channel for compaction, the benefits
of audio-visual modeling appeared in recent literature. The information coming
from the audio channel can be a result of audio-visual correlation in the video
content. In this study, we propose a new audio-visual video summarization
framework integrating four ways of audio-visual information fusion with
GRU-based and attention-based networks. Furthermore, we investigate a new
explainability methodology using audio-visual canonical correlation analysis
(CCA) to better understand and explain the role of audio in the video
summarization task. Experimental evaluations on the TVSum dataset attain F1
score and Kendall-tau score improvements for the audio-visual video
summarization. Furthermore, splitting video content on TVSum and COGNIMUSE
datasets based on audio-visual CCA as positively and negatively correlated
videos yields a strong performance improvement over the positively correlated
videos for audio-only and audio-visual video summarization.
- Abstract(参考訳): ビデオ要約は、効率的なビデオ表現、検索、ブラウジングのために注目を集め、ボリュームやトラフィック急増の問題を緩和する。
ビデオ要約は主に圧縮にビジュアルチャネルを使用するが、近年ではオーディオ・ビジュアル・モデリングの利点が出現している。
音声チャネルからの情報は、ビデオコンテンツにおける音声と視覚の相関の結果である。
本研究では,GRUとアテンションベースネットワークを融合した4種類の音声・視覚情報の統合を目的とした,新しい音声・視覚映像要約フレームワークを提案する。
さらに,映像要約作業における音声の役割をより深く理解し説明するために,CCAを用いた新たな説明可能性手法について検討した。
視聴覚映像要約のためのF1スコアとKendall-tauスコアの改善を実現するTVSumデータセットの実験的検討
さらに,TVSum と COGNIMUSE のデータセットを音声-視覚CCA を正・負の相関ビデオとして分割することで,音声-視覚ビデオ要約のための正の相関ビデオよりも高い性能向上が得られる。
関連論文リスト
- Relevance-guided Audio Visual Fusion for Video Saliency Prediction [23.873134951154704]
本稿では,SP と呼ばれる新しい関連性誘導型音声視覚情報量予測ネットワークを提案する。
Fusionモジュールは、音声と視覚要素間の意味的関連性に基づいて、音声機能の保持を動的に調整する。
マルチスケール機能Synergy(MS)モジュールは、異なるエンコーディングステージからの視覚的特徴を統合し、様々なスケールでオブジェクトを表現するネットワークの能力を向上する。
論文 参考訳(メタデータ) (2024-11-18T10:42:27Z) - Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。
我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。
音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文 参考訳(メタデータ) (2024-07-21T03:59:14Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。