論文の概要: Fusion and Orthogonal Projection for Improved Face-Voice Association
- arxiv url: http://arxiv.org/abs/2112.10483v1
- Date: Mon, 20 Dec 2021 12:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 22:37:12.241949
- Title: Fusion and Orthogonal Projection for Improved Face-Voice Association
- Title(参考訳): 顔声連合改善のための固定と直交投影
- Authors: Muhammad Saad Saeed, Muhammad Haris Khan, Shah Nawaz, Muhammad Haroon
Yousaf, Alessio Del Bue
- Abstract要約: 顔と声の関連性について検討する。
両モードの相補的手がかりを利用して, リッチなフューズド埋め込みを形成する軽量なプラグアンドプレイ機構を提案する。
- 参考スコア(独自算出の注目度): 15.938463726577128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of learning association between face and voice, which is
gaining interest in the computer vision community lately. Prior works adopt
pairwise or triplet loss formulations to learn an embedding space amenable for
associated matching and verification tasks. Albeit showing some progress, such
loss formulations are, however, restrictive due to dependency on
distance-dependent margin parameter, poor run-time training complexity, and
reliance on carefully crafted negative mining procedures. In this work, we
hypothesize that enriched feature representation coupled with an effective yet
efficient supervision is necessary in realizing a discriminative joint
embedding space for improved face-voice association. To this end, we propose a
light-weight, plug-and-play mechanism that exploits the complementary cues in
both modalities to form enriched fused embeddings and clusters them based on
their identity labels via orthogonality constraints. We coin our proposed
mechanism as fusion and orthogonal projection (FOP) and instantiate in a
two-stream pipeline. The overall resulting framework is evaluated on a
large-scale VoxCeleb dataset with a multitude of tasks, including cross-modal
verification and matching. Results show that our method performs favourably
against the current state-of-the-art methods and our proposed supervision
formulation is more effective and efficient than the ones employed by the
contemporary methods.
- Abstract(参考訳): 近年,コンピュータビジョンコミュニティへの関心が高まっている顔と音声の学習関連の問題について検討する。
先行研究では、ペアワイズまたはトリプルトロスの定式化を採用し、関連するマッチングおよび検証タスクのための埋め込み空間を学習する。
しかし、そのような損失定式化は、距離依存のマージンパラメータへの依存、実行時のトレーニングの複雑さの低さ、慎重に作られた負のマイニング手順への依存などにより制限される。
本研究は, 顔・声の関連を改善するために, 特徴表現の充実と, 効果的かつ効率的な監督が不可欠であると仮定する。
そこで本研究では,両モードの相補的手がかりを利用して,密集した融合埋め込みを形成し,直交制約を通した識別ラベルに基づいてクラスタ化する軽量なプラグアンドプレイ機構を提案する。
提案するメカニズムをfop(fusion and orthogonal projection)として考案し,2ストリームパイプラインでインスタンス化する。
全体的なフレームワークは、クロスモーダル検証やマッチングなど、さまざまなタスクを備えた大規模なVoxCelebデータセットで評価される。
その結果,本手法は現在の手法に対して好適に動作し,提案手法は現代手法よりも効率的かつ効率的であることがわかった。
関連論文リスト
- FALCON: Fine-grained Activation Manipulation by Contrastive Orthogonal Unalignment for Large Language Model [23.69222300760814]
本研究では,FALCON(Contrastive Orthogonal uNalignment)による微細な活性化マニピュレーションを,表現誘導型未学習アプローチとして提案する。
FALCONは、モデルユーティリティを維持しながら、より優れた非学習効率を実現し、知識回復の試みに対して堅牢な抵抗を示す。
論文 参考訳(メタデータ) (2025-02-03T16:05:15Z) - Interactive Graph Convolutional Filtering [79.34979767405979]
インタラクティブ・レコメンダ・システム(IRS)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまな領域でますます利用されている。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探査戦略にもかかわらず、しばしば初期の段階で満足な結果を提供するのに苦労する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
論文 参考訳(メタデータ) (2023-09-04T09:02:31Z) - Transfer Learning with Partially Observable Offline Data via Causal Bounds [8.981637739384674]
本稿では,部分的に観測可能なコンテキスト帯の移動学習について検討する。
エージェントは不完全な情報と隠れた共同設立者への限られたアクセスで操作する。
本稿では,未知分布の関数的制約を線形制約に識別する効率的な手法を提案する。
この手法は推定誤差を考慮し、強い収束特性を示し、堅牢で信頼性の高い因果境界を保証する。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Unsupervised Visible-Infrared Person ReID by Collaborative Learning with Neighbor-Guided Label Refinement [53.044703127757295]
教師なし学習 可視赤外人物再識別 (USL-VI-ReID) は、ラベルなしのクロスモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。
本稿では,生成したラベルを1つのモダリティからそれに対応するモダリティに同時に割り当てる,Dual Optimal Transport Label Assignment (DOTLA) フレームワークを提案する。
提案したDOTLA機構は、相互強化と相互モダリティデータアソシエーションの効率的な解を定式化することにより、不十分でノイズの多いラベルアソシエーションの副作用を効果的に低減することができる。
論文 参考訳(メタデータ) (2023-05-22T04:40:30Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Learning Branched Fusion and Orthogonal Projection for Face-Voice
Association [20.973188176888865]
両モードの相補的手がかりを利用して, リッチなフューズド埋め込みを形成する軽量なプラグアンドプレイ機構を提案する。
その結果,本手法は現在の最先端手法に対して良好に動作することがわかった。
さらに,複数の言語が対面音声アソシエーションに与える影響を分析するために,モーダル間検証とマッチングタスクを活用している。
論文 参考訳(メタデータ) (2022-08-22T12:23:09Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Subspace Clustering for Action Recognition with Covariance
Representations and Temporal Pruning [20.748083855677816]
本稿では、骨格データから、どのアクションがトリミングシーケンスで表示されるかの分類として定義される人間の行動認識の問題に取り組む。
本研究では,行動の識別性を高めるために共分散行列を利用する新しいサブスペースクラスタリング法と,データの時間次元をよりよく扱えるタイムスタンプ・プルーニング手法を提案する。
論文 参考訳(メタデータ) (2020-06-21T14:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。