論文の概要: SSAVSV: Towards Unified Model for Self-Supervised Audio-Visual Speaker Verification
- arxiv url: http://arxiv.org/abs/2506.17694v1
- Date: Sat, 21 Jun 2025 12:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.543752
- Title: SSAVSV: Towards Unified Model for Self-Supervised Audio-Visual Speaker Verification
- Title(参考訳): SSAVSV:自己監督型音声-映像話者検証のための統一モデルに向けて
- Authors: Gnana Praveen Rajasekhar, Jahangir Alam,
- Abstract要約: 非対称なマスキングとマスク付きデータモデリングを用いたコントラスト学習に基づく自己教師付き学習フレームワークを提案する。
我々は、音声と視覚入力のための単一の共有バックボーンを用いて、自己教師型音声視覚話者検証のための統合されたフレームワークを用いる。
本手法は,従来の手法に比べて計算コストを低減しつつ,ラベル付きデータを使わずに競争性能を向上する。
- 参考スコア(独自算出の注目度): 3.380873355096444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional audio-visual methods for speaker verification rely on large amounts of labeled data and separate modality-specific architectures, which is computationally expensive, limiting their scalability. To address these problems, we propose a self-supervised learning framework based on contrastive learning with asymmetric masking and masked data modeling to obtain robust audiovisual feature representations. In particular, we employ a unified framework for self-supervised audiovisual speaker verification using a single shared backbone for audio and visual inputs, leveraging the versatility of vision transformers. The proposed unified framework can handle audio, visual, or audiovisual inputs using a single shared vision transformer backbone during training and testing while being computationally efficient and robust to missing modalities. Extensive experiments demonstrate that our method achieves competitive performance without labeled data while reducing computational costs compared to traditional approaches.
- Abstract(参考訳): 従来の話者認証のためのオーディオ視覚的手法は、大量のラベル付きデータと、計算コストがかかり、スケーラビリティが制限される個別のモダリティ特化アーキテクチャに依存している。
このような問題に対処するために,非対称マスキングとマスキングデータモデリングを用いたコントラスト学習に基づく自己教師型学習フレームワークを提案し,ロバストな音声視覚特徴表現を得る。
特に,視覚変換器の汎用性を活用し,音声および視覚入力のための単一の共有バックボーンを用いた自己教師型音声視覚話者検証のための統合フレームワークを用いる。
提案された統合されたフレームワークは、トレーニングとテスト中に単一の共有ビジョントランスフォーマーバックボーンを使用して、オーディオ、ビジュアル、オーディオ視覚入力を処理でき、計算効率が良く、モダリティの欠如に対して堅牢である。
その結果,従来の手法に比べて計算コストを低減しつつ,ラベル付きデータを使わずに競争性能を向上できることを示した。
関連論文リスト
- Bridging Audio and Vision: Zero-Shot Audiovisual Segmentation by Connecting Pretrained Models [13.63552417613795]
複数の事前学習モデルを活用することでタスク固有のトレーニングを不要にするゼロショットAVSフレームワークを提案する。
提案手法は,音声,視覚,テキスト表現を統合し,AVS固有のアノテーションを使わずに正確な音源分割を可能にする。
論文 参考訳(メタデータ) (2025-06-06T21:06:35Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Sequential Contrastive Audio-Visual Learning [12.848371604063168]
本稿では,非集約的表現空間に基づく実例を対比した逐次コントラスト型音声視覚学習(SCAV)を提案する。
VGGSoundとMusicのデータセットによる実験は、SCAVの有効性を実証している。
また、SCAVでトレーニングされたモデルが、検索に使用されるメトリックに関して、かなりの柔軟性を示すことを示す。
論文 参考訳(メタデータ) (2024-07-08T09:45:20Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Exploiting Transformation Invariance and Equivariance for
Self-supervised Sound Localisation [32.68710772281511]
本稿では,映像中の音源をローカライズするために,音声・視覚表現学習のための自己教師型フレームワークを提案する。
我々のモデルは、Flickr-SoundNet と VGG-Sound という2つの音像定位ベンチマークにおいて、従来の手法よりも優れていた。
このことから,提案するフレームワークは,局所化や一般化に有益である強いマルチモーダル表現を学習し,さらなる応用を図っている。
論文 参考訳(メタデータ) (2022-06-26T03:00:02Z) - Learning Audio-Visual Correlations from Variational Cross-Modal
Generation [35.07257471319274]
我々は,モーダル間生成の観点から,音声と視覚の相関関係を自己監督的に学習する。
学習した相関関係は、オーディオ-視覚的クロスモーダルなローカライゼーションや検索など、複数の下流タスクに容易に適用できる。
論文 参考訳(メタデータ) (2021-02-05T21:27:00Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。