論文の概要: XM-ALIGN: Unified Cross-Modal Embedding Alignment for Face-Voice Association
- arxiv url: http://arxiv.org/abs/2512.06757v1
- Date: Sun, 07 Dec 2025 09:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.510547
- Title: XM-ALIGN: Unified Cross-Modal Embedding Alignment for Face-Voice Association
- Title(参考訳): XM-ALIGN:Face-Voice Associationのための統一型クロスモーダル埋め込みアライメント
- Authors: Zhihua Fang, Shumei Tao, Junxu Wang, Liang He,
- Abstract要約: XM-ALIGN (Unified Cross-Modal Embedding Alignment Framework) はICASSP 2026でFAMEチャレンジを提案した。
我々のフレームワークは明示的なアライメント機構と暗黙的なアライメント機構を組み合わせることで、"ハイド"言語と"アンハイド"言語の両方において、クロスモーダルな検証性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 11.000827001680648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces our solution, XM-ALIGN (Unified Cross-Modal Embedding Alignment Framework), proposed for the FAME challenge at ICASSP 2026. Our framework combines explicit and implicit alignment mechanisms, significantly improving cross-modal verification performance in both "heard" and "unheard" languages. By extracting feature embeddings from both face and voice encoders and jointly optimizing them using a shared classifier, we employ mean squared error (MSE) as the embedding alignment loss to ensure tight alignment between modalities. Additionally, data augmentation strategies are applied during model training to enhance generalization. Experimental results show that our approach demonstrates superior performance on the MAV-Celeb dataset. The code will be released at https://github.com/PunkMale/XM-ALIGN.
- Abstract(参考訳): 本稿では,ICASSP 2026におけるFAMEチャレンジに対して提案したXM-ALIGN(Unified Cross-Modal Embedding Alignment Framework)を提案する。
我々のフレームワークは明示的なアライメント機構と暗黙的なアライメント機構を組み合わせることで、"ハイド"言語と"アンハイド"言語の両方において、クロスモーダルな検証性能を大幅に向上させる。
顔と音声のエンコーダから特徴埋め込みを抽出し、共有分類器を用いて共同最適化することにより、平均二乗誤差(MSE)を埋め込みアライメント損失として利用し、モダリティ間の密接なアライメントを確保する。
さらに、一般化を強化するために、モデルトレーニング中にデータ拡張戦略を適用する。
実験の結果,本手法はMAV-Celebデータセットに優れた性能を示すことがわかった。
コードはhttps://github.com/PunkMale/XM-ALIGNでリリースされる。
関連論文リスト
- UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Dual-Perspective Disentangled Multi-Intent Alignment for Enhanced Collaborative Filtering [7.031525324133112]
暗黙のフィードバックからユーザ意図を遠ざけることは、レコメンデーションシステムの正確性と解釈可能性を高めるための有望な戦略として現れてきた。
DMICFは、意図のアライメント、構造融合、識別訓練を統一する、二重パースペクティブな協調フィルタリングフレームワークである。
DMICFは、さまざまなインタラクション分布を持つデータセット間で、一貫して堅牢なパフォーマンスを提供します。
論文 参考訳(メタデータ) (2025-06-13T07:44:42Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。