Fugu-MT 論文翻訳(概要): STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking

論文の概要: STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking

arxiv url: http://arxiv.org/abs/2410.05964v1
Date: Tue, 8 Oct 2024 12:15:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 12:00:27.507399
Title: STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking
Title（参考訳）: STNet:ロバスト話者追跡のためのディープオーディオ・ビジュアルフュージョンネットワーク
Authors: Yidi Li, Hong Liu, Bing Yang,
Abstract要約: 本稿では,音声・視覚融合モデルを用いた新しい話者追跡ネットワーク(STNet)を提案する。 AV16.3とCAV3Dデータセットの実験により、提案されたSTNetベースのトラッカーは、ユニモーダルな手法と最先端のオーディオヴィジュアルなスピーカートラッカーよりも優れていることが示された。
参考スコア（独自算出の注目度）: 8.238662377845142
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual speaker tracking aims to determine the location of human targets in a scene using signals captured by a multi-sensor platform, whose accuracy and robustness can be improved by multi-modal fusion methods. Recently, several fusion methods have been proposed to model the correlation in multiple modalities. However, for the speaker tracking problem, the cross-modal interaction between audio and visual signals hasn't been well exploited. To this end, we present a novel Speaker Tracking Network (STNet) with a deep audio-visual fusion model in this work. We design a visual-guided acoustic measurement method to fuse heterogeneous cues in a unified localization space, which employs visual observations via a camera model to construct the enhanced acoustic map. For feature fusion, a cross-modal attention module is adopted to jointly model multi-modal contexts and interactions. The correlated information between audio and visual features is further interacted in the fusion model. Moreover, the STNet-based tracker is applied to multi-speaker cases by a quality-aware module, which evaluates the reliability of multi-modal observations to achieve robust tracking in complex scenarios. Experiments on the AV16.3 and CAV3D datasets show that the proposed STNet-based tracker outperforms uni-modal methods and state-of-the-art audio-visual speaker trackers.
Abstract（参考訳）: マルチモーダル融合法により精度とロバスト性を向上できるマルチセンサプラットフォームによって捕捉された信号を用いて,映像中の人的標的の位置を特定することを目的としている。近年,複数モードの相関をモデル化するための融合法が提案されている。しかし、話者追跡問題では、音声と視覚信号の相互の相互作用は十分に活用されていない。そこで本研究では,音声・視覚融合モデルを用いた新しい話者追跡ネットワーク(STNet)を提案する。我々は、カメラモデルによる視覚的観察を利用して拡張音響マップを構築する、統一的な局所化空間において異種キューを融合する視覚誘導音響測定法を設計する。機能融合では、マルチモーダルコンテキストと相互作用を協調的にモデル化するために、クロスモーダルアテンションモジュールが採用されている。融合モデルでは、音声と視覚的特徴の相関情報がさらに相互作用する。さらに、STNetベースのトラッカーは、複雑なシナリオにおいて堅牢なトラッキングを実現するために、マルチモーダル観測の信頼性を評価する品質認識モジュールによってマルチスピーカケースに適用される。 AV16.3とCAV3Dデータセットの実験により、提案されたSTNetベースのトラッカーは、ユニモーダルな手法と最先端のオーディオヴィジュアルなスピーカートラッカーよりも優れていることが示された。

関連論文リスト

Visual-Informed Speech Enhancement Using Attention-Based Beamforming [13.084978776817222]
視覚インフォームドニューラルビームフォーミングネットワーク(VI-NBFNet)を提案する。提案するネットワークは、マイクロホンアレイ信号処理と、マルチモーダル入力機能を用いたディープニューラルネットワーク(DNN)を統合している。注目機構を備えた教師付きエンドツーエンドビームフォーミングフレームワークを導入することで、静的および移動型スピーカの両方を扱うことを意図している。
論文参考訳（メタデータ） (2026-03-05T15:19:41Z)
AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文参考訳（メタデータ） (2025-12-18T07:01:47Z)
Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
Dynamic Multi-Target Fusion for Efficient Audio-Visual Navigation [3.3359927518257866]
効率的な音声視覚ナビゲーションのための動的マルチターゲットフュージョン(DMTF-AVN)を提案する。提案手法では,マルチターゲットアーキテクチャと改良されたTransformer機構を組み合わせることで,クロスモーダル情報をフィルタし,選択的にフューズする。 ReplicaとMatterport3Dデータセットの実験により、DMTF-AVNは、成功率(SR)、パス効率(SPL)、シーン適応(SNA)において、既存の手法よりも優れた、最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-09-23T09:31:00Z)
Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文参考訳（メタデータ） (2025-05-29T07:47:48Z)
DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文参考訳（メタデータ） (2025-04-14T10:17:25Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-03-07T16:57:45Z)
Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文参考訳（メタデータ） (2023-11-14T13:27:03Z)
Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文参考訳（メタデータ） (2023-08-16T11:20:23Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文参考訳（メタデータ） (2023-06-19T03:10:57Z)
Multi-Modal Perception Attention Network with Self-Supervised Learning for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。 MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文参考訳（メタデータ） (2021-12-14T14:14:17Z)
Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文参考訳（メタデータ） (2021-08-26T13:11:48Z)
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文参考訳（メタデータ） (2021-02-23T09:59:31Z)
MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文参考訳（メタデータ） (2021-01-11T02:57:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。