論文の概要: PAEFF: Precise Alignment and Enhanced Gated Feature Fusion for Face-Voice Association
- arxiv url: http://arxiv.org/abs/2505.17002v1
- Date: Thu, 22 May 2025 17:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.549245
- Title: PAEFF: Precise Alignment and Enhanced Gated Feature Fusion for Face-Voice Association
- Title(参考訳): PAEFF:Face-Voice Associationのための精密アライメントと拡張ゲート機能融合
- Authors: Abdul Hannan, Muhammad Arslan Manzoor, Shah Nawaz, Muhammad Irzam Liaqat, Markus Schedl, Mubashir Noman,
- Abstract要約: 顔と声の関連を学習する課題について検討する。
埋め込み空間を正確に整列し,拡張ゲート融合で融合する手法を提案する。
- 参考スコア(独自算出の注目度): 9.21950270306253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the task of learning association between faces and voices, which is gaining interest in the multimodal community lately. These methods suffer from the deliberate crafting of negative mining procedures as well as the reliance on the distant margin parameter. These issues are addressed by learning a joint embedding space in which orthogonality constraints are applied to the fused embeddings of faces and voices. However, embedding spaces of faces and voices possess different characteristics and require spaces to be aligned before fusing them. To this end, we propose a method that accurately aligns the embedding spaces and fuses them with an enhanced gated fusion thereby improving the performance of face-voice association. Extensive experiments on the VoxCeleb dataset reveals the merits of the proposed approach.
- Abstract(参考訳): 近年,マルチモーダルコミュニティへの関心が高まっている顔と声の関連性学習の課題について検討している。
これらの手法は、負の採掘手順の故意な作り方と、遠方のマージンパラメータに依存することに悩まされる。
これらの問題は、顔と声の融合埋め込みに直交制約を適用した共同埋め込み空間を学習することで解決される。
しかし、顔と声の埋め込み空間には異なる特徴があり、融合する前に整列する必要がある。
この目的のために,埋め込み空間を正確に整列し,拡張ゲート融合で融合することにより,対面音声アソシエーションの性能を向上する手法を提案する。
VoxCelebデータセットに関する大規模な実験は、提案されたアプローチのメリットを明らかにしている。
関連論文リスト
- Joint Embedding vs Reconstruction: Provable Benefits of Latent Space Prediction for Self Supervised Learning [16.515613048905674]
自己監視学習(SSL)における2つの主要なパラダイムとして再構築と共同埋め込みが登場している。
どちらのアプローチも強力なアドバンテージを提供するが、実践者はそれらを選択するための明確なガイドラインを欠いている。
論文 参考訳(メタデータ) (2025-05-18T15:54:55Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP [22.076206386214565]
コントラスト言語-画像事前学習は、ゼロショット分類とクロスモーダル視覚言語タスクにおいて顕著に改善されている。
幾何学的な観点から、CLIP埋め込み空間は明らかにモダリティギャップを持つ。
本稿では,AlignCLIPが組込みのクロスモーダルアライメントにおいて顕著な拡張を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:24:02Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Learning Branched Fusion and Orthogonal Projection for Face-Voice
Association [20.973188176888865]
両モードの相補的手がかりを利用して, リッチなフューズド埋め込みを形成する軽量なプラグアンドプレイ機構を提案する。
その結果,本手法は現在の最先端手法に対して良好に動作することがわかった。
さらに,複数の言語が対面音声アソシエーションに与える影響を分析するために,モーダル間検証とマッチングタスクを活用している。
論文 参考訳(メタデータ) (2022-08-22T12:23:09Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Fusion and Orthogonal Projection for Improved Face-Voice Association [15.938463726577128]
顔と声の関連性について検討する。
両モードの相補的手がかりを利用して, リッチなフューズド埋め込みを形成する軽量なプラグアンドプレイ機構を提案する。
論文 参考訳(メタデータ) (2021-12-20T12:33:33Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Joint Disentangling and Adaptation for Cross-Domain Person
Re-Identification [88.79480792084995]
本稿では,ID関連・非関連特徴を解き放つ共同学習フレームワークを提案し,ID関連特徴空間にのみ適応を強制する。
我々のモデルは、ドメイン間の画像を共有外観空間と2つの別々の構造空間にエンコードするアンタングルモジュールと、共有外観空間上で対角アライメントと自己学習を行う適応モジュールを含む。
論文 参考訳(メタデータ) (2020-07-20T17:57:02Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。