論文の概要: Learning Branched Fusion and Orthogonal Projection for Face-Voice
Association
- arxiv url: http://arxiv.org/abs/2208.10238v1
- Date: Mon, 22 Aug 2022 12:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:42:58.409246
- Title: Learning Branched Fusion and Orthogonal Projection for Face-Voice
Association
- Title(参考訳): フェースボイスアソシエーションのための分岐核融合と直交射影の学習
- Authors: Muhammad Saad Saeed, Shah Nawaz, Muhammad Haris Khan, Sajid Javed,
Muhammad Haroon Yousaf, Alessio Del Bue
- Abstract要約: 両モードの相補的手がかりを利用して, リッチなフューズド埋め込みを形成する軽量なプラグアンドプレイ機構を提案する。
その結果,本手法は現在の最先端手法に対して良好に動作することがわかった。
さらに,複数の言語が対面音声アソシエーションに与える影響を分析するために,モーダル間検証とマッチングタスクを活用している。
- 参考スコア(独自算出の注目度): 20.973188176888865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen an increased interest in establishing association
between faces and voices of celebrities leveraging audio-visual information
from YouTube. Prior works adopt metric learning methods to learn an embedding
space that is amenable for associated matching and verification tasks. Albeit
showing some progress, such formulations are, however, restrictive due to
dependency on distance-dependent margin parameter, poor run-time training
complexity, and reliance on carefully crafted negative mining procedures. In
this work, we hypothesize that an enriched representation coupled with an
effective yet efficient supervision is important towards realizing a
discriminative joint embedding space for face-voice association tasks. To this
end, we propose a light-weight, plug-and-play mechanism that exploits the
complementary cues in both modalities to form enriched fused embeddings and
clusters them based on their identity labels via orthogonality constraints. We
coin our proposed mechanism as fusion and orthogonal projection (FOP) and
instantiate in a two-stream network. The overall resulting framework is
evaluated on VoxCeleb1 and MAV-Celeb datasets with a multitude of tasks,
including cross-modal verification and matching. Results reveal that our method
performs favourably against the current state-of-the-art methods and our
proposed formulation of supervision is more effective and efficient than the
ones employed by the contemporary methods. In addition, we leverage cross-modal
verification and matching tasks to analyze the impact of multiple languages on
face-voice association. Code is available:
\url{https://github.com/msaadsaeed/FOP}
- Abstract(参考訳): 近年は、YouTubeの音声視覚情報を活用したセレブの顔と声の関連を確立することへの関心が高まっている。
先行研究では、マッチングや検証タスクに適した埋め込み空間を学ぶために、メトリック学習手法を採用する。
しかし、そのような定式化は、距離依存性のマージンパラメータ依存性、実行時のトレーニングの複雑さの低さ、慎重に作られた負のマイニング手順に依存するため、限定的である。
本研究は, 顔声関連課題に対する識別的共同埋め込み空間の実現に向けて, 効果的かつ効率的な監督と組み合わさった豊かな表現が重要であると仮定する。
そこで本研究では,両モードの相補的手がかりを利用して,密集した融合埋め込みを形成し,直交制約を通した識別ラベルに基づいてクラスタ化する軽量なプラグアンドプレイ機構を提案する。
提案するメカニズムをFOP(fusion and orthogonal projection)として作成し,2ストリームネットワークでインスタンス化する。
全体的なフレームワークはVoxCeleb1とMAV-Celebのデータセットに基づいて、クロスモーダル検証やマッチングを含むさまざまなタスクで評価される。
その結果,本手法は現在の最先端手法に対して良好に機能し,提案手法は現代手法よりも効率的かつ効率的であることがわかった。
さらに,複数の言語が対人関係に与える影響を分析するために,クロスモーダル検証とマッチングタスクを活用する。
コード: \url{https://github.com/msaadsaeed/fop}
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Multi-scale Target-Aware Framework for Constrained Image Splicing
Detection and Localization [11.803255600587308]
統合パイプラインにおける特徴抽出と相関マッチングを結合するマルチスケールなターゲット認識フレームワークを提案する。
提案手法は,関連パッチの協調学習を効果的に促進し,特徴学習と相関マッチングの相互促進を行う。
我々の実験では、統一パイプラインを用いたモデルが、いくつかのベンチマークデータセット上で最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-08-18T07:38:30Z) - Unsupervised Visible-Infrared Person ReID by Collaborative Learning with Neighbor-Guided Label Refinement [53.044703127757295]
教師なし学習 可視赤外人物再識別 (USL-VI-ReID) は、ラベルなしのクロスモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。
本稿では,生成したラベルを1つのモダリティからそれに対応するモダリティに同時に割り当てる,Dual Optimal Transport Label Assignment (DOTLA) フレームワークを提案する。
提案したDOTLA機構は、相互強化と相互モダリティデータアソシエーションの効率的な解を定式化することにより、不十分でノイズの多いラベルアソシエーションの副作用を効果的に低減することができる。
論文 参考訳(メタデータ) (2023-05-22T04:40:30Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Fusion and Orthogonal Projection for Improved Face-Voice Association [15.938463726577128]
顔と声の関連性について検討する。
両モードの相補的手がかりを利用して, リッチなフューズド埋め込みを形成する軽量なプラグアンドプレイ機構を提案する。
論文 参考訳(メタデータ) (2021-12-20T12:33:33Z) - Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition [13.994609732846344]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。
本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。
その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文 参考訳(メタデータ) (2021-11-09T16:01:56Z) - Cross-Supervised Joint-Event-Extraction with Heterogeneous Information
Networks [61.950353376870154]
Joint-event- Extractは、トリガとエンティティのタグからなるタグセットを備えたシーケンスからシーケンスまでのラベリングタスクである。
トリガやエンティティの抽出を交互に監督するクロススーパーバイザードメカニズム(CSM)を提案する。
我々の手法は、エンティティとトリガー抽出の両方において最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-13T11:51:17Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。