論文の概要: PAIR-Net: Enhancing Egocentric Speaker Detection via Pretrained Audio-Visual Fusion and Alignment Loss
- arxiv url: http://arxiv.org/abs/2506.02247v1
- Date: Mon, 02 Jun 2025 20:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.077549
- Title: PAIR-Net: Enhancing Egocentric Speaker Detection via Pretrained Audio-Visual Fusion and Alignment Loss
- Title(参考訳): PAIR-Net: 事前訓練されたオーディオ・ビジュアル・フュージョンとアライメント・ロスによる自己中心型話者検出の強化
- Authors: Yu Wang, Juhyung Ha, David J. Crandall,
- Abstract要約: エゴセントリックビデオにおけるアクティブな話者検出(ASD)は、不安定な視点、動きのぼやけ、オフスクリーン音声源などによる固有の課題を提示する。
本稿では,部分的に凍結したWhisperオーディオエンコーダと,微調整されたAV-HuBERTビジュアルバックボーンを統合する効果的なモデルであるPAIR-Netを紹介する。
実世界の自我中心の条件下では,事前学習音声の付加価値とアライメントに基づくアライメント・ベース・フュージョンが重要である。
- 参考スコア(独自算出の注目度): 13.206758212617778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active speaker detection (ASD) in egocentric videos presents unique challenges due to unstable viewpoints, motion blur, and off-screen speech sources - conditions under which traditional visual-centric methods degrade significantly. We introduce PAIR-Net (Pretrained Audio-Visual Integration with Regularization Network), an effective model that integrates a partially frozen Whisper audio encoder with a fine-tuned AV-HuBERT visual backbone to robustly fuse cross-modal cues. To counteract modality imbalance, we introduce an inter-modal alignment loss that synchronizes audio and visual representations, enabling more consistent convergence across modalities. Without relying on multi-speaker context or ideal frontal views, PAIR-Net achieves state-of-the-art performance on the Ego4D ASD benchmark with 76.6% mAP, surpassing LoCoNet and STHG by 8.2% and 12.9% mAP, respectively. Our results highlight the value of pretrained audio priors and alignment-based fusion for robust ASD under real-world egocentric conditions.
- Abstract(参考訳): エゴセントリックなビデオにおけるアクティブな話者検出(ASD)は、不安定な視点、動きのぼかし、オフスクリーンの音声源(従来の視覚中心の手法が著しく低下する状況)によるユニークな課題を示す。
PAIR-Net(Pretrained Audio-Visual Integration with Regularization Network)は、部分的に凍結されたWhisperオーディオエンコーダと微調整されたAV-HuBERTビジュアルバックボーンを統合し、クロスモーダルキューを堅牢に融合する有効なモデルである。
モダリティの不均衡に対処するために、モーダル間のアライメント損失を導入し、モーダル間のより一貫した収束を可能にする。
PAIR-Netはマルチスピーカーのコンテキストや理想的なフロントビューに頼らず、Ego4D ASDベンチマークで76.6%のmAPを達成し、それぞれLoCoNetとSTHGを8.2%、12.9%のmAPで上回っている。
実世界の自我中心の条件下では,事前学習音声の付加価値とアライメントに基づくアライメント・ベース・フュージョンが重要である。
関連論文リスト
- Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning [37.17910848101769]
現在の視覚誘導型オーディオキャプションシステムは、現実のシナリオにおけるオーディオヴィジュアル・アライメントに対処できない。
本稿では,モーダルな不確実性定量化を通じて視覚情報の流れを動的に変調するエントロピー対応ゲート融合フレームワークを提案する。
また,合成ミスマッチ学習ペアを生成するバッチワイドオーディオ視覚シャッフル技術を開発した。
論文 参考訳(メタデータ) (2025-05-28T07:08:17Z) - DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos [4.452513686760606]
マルチモーダル大言語モデル(MLLM)の内部連鎖(CoT)を利用したビデオから音声を生成するフレームワークを提案する。
対応するマルチモーダル推論データセットを構築し、音声生成における初期推論の学習を容易にする。
実験では,提案手法が生成した音声の不一致(発声)の低減に有効であることを示す。
論文 参考訳(メタデータ) (2025-03-28T07:56:19Z) - LatentSync: Taming Audio-Conditioned Latent Diffusion Models for Lip Sync with SyncNet Supervision [13.447234794835921]
安定収束のために設計されたアーキテクチャを備えたStableSyncNetを紹介する。
提案手法は,HDTFおよびVoxCeleb2データセット上での様々な評価指標にまたがって,最先端のリップシンクアプローチを超越する。
論文 参考訳(メタデータ) (2024-12-12T13:20:52Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。