論文の概要: Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection
- arxiv url: http://arxiv.org/abs/2602.03891v1
- Date: Tue, 03 Feb 2026 07:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.205476
- Title: Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection
- Title(参考訳): 音のハイライト:デュアルパスウェイ・オーディオ・エンコーダ
- Authors: Seohyun Joo, Yoori Oh,
- Abstract要約: 我々は,DAViHD(Dual-Pathway AudioSums for Video Highlight Detection)という新しいフレームワークを提案する。
DAViHDは、コンテンツ理解のためのセマンティックパスと、分光時間力学を捉えるダイナミックパスで構成されている。
我々は大規模なMr.Hiベンチマークで最新の性能を実現する。
- 参考スコア(独自算出の注目度): 3.6453477876255502
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-visual video highlight detection aims to automatically identify the most salient moments in videos by leveraging both visual and auditory cues. However, existing models often underutilize the audio modality, focusing on high-level semantic features while failing to fully leverage the rich, dynamic characteristics of sound. To address this limitation, we propose a novel framework, Dual-Pathway Audio Encoders for Video Highlight Detection (DAViHD). The dual-pathway audio encoder is composed of a semantic pathway for content understanding and a dynamic pathway that captures spectro-temporal dynamics. The semantic pathway extracts high-level information by identifying the content within the audio, such as speech, music, or specific sound events. The dynamic pathway employs a frequency-adaptive mechanism as time evolves to jointly model these dynamics, enabling it to identify transient acoustic events via salient spectral bands and rapid energy changes. We integrate the novel audio encoder into a full audio-visual framework and achieve new state-of-the-art performance on the large-scale Mr.HiSum benchmark. Our results demonstrate that a sophisticated, dual-faceted audio representation is key to advancing the field of highlight detection.
- Abstract(参考訳): 音声・視覚的ビデオハイライト検出は、視覚と聴覚の両方の手がかりを活用して、ビデオの最も健全な瞬間を自動的に識別することを目的としている。
しかし、既存のモデルは、音のリッチでダイナミックな特性を十分に活用することができず、高レベルのセマンティックな特徴に焦点を合わせながら、オーディオのモダリティを過小評価することが多い。
この制限に対処するために,ビデオハイライト検出のためのDual-Pathway Audio Encoders (DAViHD) という新しいフレームワークを提案する。
デュアルパスウェイオーディオエンコーダは、コンテンツ理解のためのセマンティックパスと、分光時相ダイナミクスをキャプチャするダイナミックパスから構成される。
セマンティックパスは、音声、音楽、特定の音声イベントなどの音声に含まれる内容を識別することにより、ハイレベルな情報を抽出する。
ダイナミックパスは、これらのダイナミクスを共同でモデル化するために時間が進化するにつれて周波数適応的なメカニズムを採用し、塩分スペクトルバンドによる過渡的な音響事象と急激なエネルギー変化を識別することができる。
我々は,新しいオーディオエンコーダをフル・オーディオ・ビジュアル・フレームワークに統合し,大規模なMr.HiSumベンチマークで新しい最先端性能を実現する。
以上の結果から,高精細な両面音声表現がハイライト検出の分野を前進させる鍵であることが示唆された。
関連論文リスト
- Semantic visually-guided acoustic highlighting with large vision-language models [34.707752102338816]
現在のオーディオミキシングは、手作業と労働集約がほとんどである。
コンディショニング信号としてどの視覚的側面が最も効果的かは定かではない。
我々は,どのビジュアル・セマンティック・キューがコヒーレントで視覚的に整合したオーディオリミックスを最も強くサポートしているかを同定する。
論文 参考訳(メタデータ) (2026-01-12T01:30:15Z) - SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Relevance-guided Audio Visual Fusion for Video Saliency Prediction [23.873134951154704]
本稿では,SP と呼ばれる新しい関連性誘導型音声視覚情報量予測ネットワークを提案する。
Fusionモジュールは、音声と視覚要素間の意味的関連性に基づいて、音声機能の保持を動的に調整する。
マルチスケール機能Synergy(MS)モジュールは、異なるエンコーディングステージからの視覚的特徴を統合し、様々なスケールでオブジェクトを表現するネットワークの能力を向上する。
論文 参考訳(メタデータ) (2024-11-18T10:42:27Z) - Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition [29.414663568089292]
音声-視覚音声認識は、音声とビデオの両方のモダリティを用いて人間の音声を転写することを目的としている。
本研究では,映像データ中の3つの時間的ダイナミクスを学習することにより,映像特徴の強化を図る。
LRS2 と LRS3 の AVSR ベンチマークにおいて,ノイズ優越性設定のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-04T01:25:20Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audiovisual SlowFast Networks for Video Recognition [140.08143162600354]
本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。
複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。
6つのビデオ行動分類と検出データセットの結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。
論文 参考訳(メタデータ) (2020-01-23T18:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。