論文の概要: Global-Local Distillation Network-Based Audio-Visual Speaker Tracking with Incomplete Modalities
- arxiv url: http://arxiv.org/abs/2408.14585v1
- Date: Mon, 26 Aug 2024 19:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 17:40:47.408923
- Title: Global-Local Distillation Network-Based Audio-Visual Speaker Tracking with Incomplete Modalities
- Title(参考訳): 不完全モダリティを用いたグローバルローカル蒸留ネットワークによる話者追跡
- Authors: Yidi Li, Yihan Li, Yixin Guo, Bin Ren, Zhenhuan Xu, Hao Guo, Hong Liu, Nicu Sebe,
- Abstract要約: 本稿では,ロバストな音声・視覚的話者追跡のためのグローバルローカル蒸留方式トラッカー(GLDTracker)を提案する。
GLDTrackerは教師による蒸留モデルによって駆動され、各モードから不完全情報の柔軟な融合を可能にする。
AV16.3データセットの実験結果は、提案されたGLDTrackerが既存の最先端オーディオ視覚トラッカーより優れていることを示している。
- 参考スコア(独自算出の注目度): 49.835556586263834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In speaker tracking research, integrating and complementing multi-modal data is a crucial strategy for improving the accuracy and robustness of tracking systems. However, tracking with incomplete modalities remains a challenging issue due to noisy observations caused by occlusion, acoustic noise, and sensor failures. Especially when there is missing data in multiple modalities, the performance of existing multi-modal fusion methods tends to decrease. To this end, we propose a Global-Local Distillation-based Tracker (GLDTracker) for robust audio-visual speaker tracking. GLDTracker is driven by a teacher-student distillation model, enabling the flexible fusion of incomplete information from each modality. The teacher network processes global signals captured by camera and microphone arrays, and the student network handles local information subject to visual occlusion and missing audio channels. By transferring knowledge from teacher to student, the student network can better adapt to complex dynamic scenes with incomplete observations. In the student network, a global feature reconstruction module based on the generative adversarial network is constructed to reconstruct global features from feature embedding with missing local information. Furthermore, a multi-modal multi-level fusion attention is introduced to integrate the incomplete feature and the reconstructed feature, leveraging the complementarity and consistency of audio-visual and global-local features. Experimental results on the AV16.3 dataset demonstrate that the proposed GLDTracker outperforms existing state-of-the-art audio-visual trackers and achieves leading performance on both standard and incomplete modalities datasets, highlighting its superiority and robustness in complex conditions. The code and models will be available.
- Abstract(参考訳): 話者追跡研究において、マルチモーダルデータの統合と補完は、トラッキングシステムの正確性と堅牢性を改善するための重要な戦略である。
しかし, 閉塞音, 音響ノイズ, センサ故障などのノイズが原因で, 不完全性による追跡が困難な問題となっている。
特に、複数のモードでデータ不足が発生した場合、既存のマルチモーダル融合法の性能は低下する傾向にある。
そこで本稿では,ロバストな音声・視覚的話者追跡のためのGLDTracker(Global-Local Distillation-based Tracker)を提案する。
GLDTrackerは教師による蒸留モデルによって駆動され、各モードから不完全情報の柔軟な融合を可能にする。
教師ネットワークは、カメラおよびマイクロフォンアレイによって捕捉されたグローバル信号を処理する。
教師から生徒へ知識を伝達することで、学生ネットワークは不完全な観察を伴う複雑なダイナミックなシーンに適応することができる。
学生ネットワークにおいて、生成的対角ネットワークに基づくグローバルな特徴再構成モジュールを構築し、グローバルな特徴をローカル情報を欠く特徴埋め込みから再構築する。
さらに、不完全機能と再構成機能を統合するために、マルチモーダルなマルチレベルフュージョンアテンションを導入し、オーディオ視覚的特徴とグローバルローカル特徴の相補性と一貫性を活用する。
AV16.3データセットの実験的結果は、提案されたGLDTrackerが既存の最先端オーディオ視覚トラッカーより優れ、標準および不完全なモダリティデータセットの両方でリードパフォーマンスを達成し、複雑な条件におけるその優位性と堅牢性を強調していることを示している。
コードとモデルは利用可能になる。
関連論文リスト
- Multi-Modal Video Dialog State Tracking in the Wild [10.453212911612866]
MST-MIXERは、汎用的なマルチモーダル状態追跡スキーム上で動作する新しいビデオダイアログモデルである。
新たなマルチモーダルグラフ構造学習法を用いて,各入力モードの選択した構成成分の不足する基盤構造を予測する。
5つの挑戦的なベンチマークで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2024-07-02T12:34:17Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - iKUN: Speak to Trackers without Retraining [21.555469501789577]
市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。
局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。
また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
論文 参考訳(メタデータ) (2023-12-25T11:48:55Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Unsupervised Person Re-Identification with Wireless Positioning under
Weak Scene Labeling [131.18390399368997]
本稿では、弱いシーンラベリングの下で、視覚データと無線位置決めトラジェクトリの両方を用いて、教師なしの人物再識別を探索することを提案する。
具体的には、視覚データと無線情報の相補性をモデル化した、新しい教師なしマルチモーダルトレーニングフレームワーク(UMTF)を提案する。
我々のUMTFには、MMDA(Multimodal Data Association Strategy)とMMGN(Multimodal Graph Neural Network)が含まれている。
論文 参考訳(メタデータ) (2021-10-29T08:25:44Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Federated Self-Supervised Learning of Multi-Sensor Representations for
Embedded Intelligence [8.110949636804772]
スマートフォン、ウェアラブル、IoT(Internet of Things)デバイスは、教師付きモデルを学習するための集中リポジトリに蓄積できない豊富なデータを生成する。
本稿では,ウェーブレット変換に基づくテキストカルグラム・信号対応学習という自己教師付きアプローチを提案し,ラベルなしセンサ入力から有用な表現を学習する。
さまざまなパブリックデータセットのマルチビュー戦略を用いて,学習機能の品質を広範囲に評価し,すべての領域で高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-07-25T21:59:17Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。