論文の概要: Face-Voice Association with Inductive Bias for Maximum Class Separation
- arxiv url: http://arxiv.org/abs/2601.13651v1
- Date: Tue, 20 Jan 2026 06:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.187418
- Title: Face-Voice Association with Inductive Bias for Maximum Class Separation
- Title(参考訳): 最大クラス分離のための誘導バイアスと顔声の関連
- Authors: Marta Moscati, Oleksandr Kats, Mubashir Noman, Muhammad Zaigham Zaheer, Yufang Hou, Markus Schedl, Shah Nawaz,
- Abstract要約: フェース・ボイス・アソシエーションは多モーダル・ラーニングにおいて広く研究されており、同一人物に近づき、他者と十分に区別された埋め込みを持つ顔や声を表現している。
近年の分類の進歩は、最大クラス分離を帰納バイアスとして与えることで、埋め込みの識別能力を強化することができることを示している。
この研究は、マルチモーダル学習における帰納バイアスとして最大クラス分離の有効性を初めて適用し、実証するものである。
- 参考スコア(独自算出の注目度): 31.360581317319827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face-voice association is widely studied in multimodal learning and is approached representing faces and voices with embeddings that are close for a same person and well separated from those of others. Previous work achieved this with loss functions. Recent advancements in classification have shown that the discriminative ability of embeddings can be strengthened by imposing maximum class separation as inductive bias. This technique has never been used in the domain of face-voice association, and this work aims at filling this gap. More specifically, we develop a method for face-voice association that imposes maximum class separation among multimodal representations of different speakers as an inductive bias. Through quantitative experiments we demonstrate the effectiveness of our approach, showing that it achieves SOTA performance on two task formulation of face-voice association. Furthermore, we carry out an ablation study to show that imposing inductive bias is most effective when combined with losses for inter-class orthogonality. To the best of our knowledge, this work is the first that applies and demonstrates the effectiveness of maximum class separation as an inductive bias in multimodal learning; it hence paves the way to establish a new paradigm.
- Abstract(参考訳): フェース・ボイス・アソシエーションは多モーダル・ラーニングにおいて広く研究されており、同一人物に近づき、他者と十分に区別された埋め込みを持つ顔や声を表現している。
それまでの研究は損失関数でこれを達成した。
近年の分類の進歩は、最大クラス分離を帰納バイアスとして与えることで、埋め込みの識別能力を強化することができることを示している。
フェースボイス・アソシエーションの分野では、この技術は使われておらず、このギャップを埋めることを目的としている。
具体的には,複数話者のマルチモーダル表現間の最大クラス分離を帰納バイアスとして課すフェース・ボイス・アソシエーションの手法を開発する。
定量的な実験により, 対面音声アソシエーションの2つのタスクの定式化においてSOTA性能が達成できることを実証した。
さらに,帰納的バイアスを付与することは,クラス間の直交性の損失と組み合わせることで最も効果的であることを示すアブレーション研究を行った。
我々の知る限りでは、この研究はマルチモーダル学習における帰納的バイアスとしての最大クラス分離の有効性を初めて適用し、実証している。
関連論文リスト
- Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。
これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。
トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文 参考訳(メタデータ) (2024-12-10T20:36:49Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Fair Contrastive Learning for Facial Attribute Classification [25.436462696033846]
公正な視覚表現学習のためのFair Supervised Contrastive Loss (FSCL)を提案する。
本稿では,教師付きコントラスト学習による不公平性を初めて分析する。
提案手法はデータバイアスの強度に頑健であり,不完全な教師付き設定で効果的に機能する。
論文 参考訳(メタデータ) (2022-03-30T11:16:18Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Contrastive Continual Learning with Feature Propagation [32.70482982044965]
連続した機械学習者は、異なるタスク間でドメインやクラスシフトを伴うタスクのストリームを寛大に学習する。
本稿では,複数の連続学習シナリオを処理可能な特徴伝達に基づくコントラスト型連続学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T04:55:28Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - SphereFace2: Binary Classification is All You Need for Deep Face
Recognition [57.07058009281208]
最先端のディープフェイス認識手法は、ソフトマックスベースのマルチクラス分類フレームワークで主に訓練されている。
本稿では,SphereFace2と呼ばれる新しいバイナリ分類学習フレームワークを提案する。
SphereFace2は、最先端のディープ・フェイス認識手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-08-03T13:58:45Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。