論文の概要: On the Behavior of Audio-Visual Fusion Architectures in Identity
Verification Tasks
- arxiv url: http://arxiv.org/abs/2311.05071v1
- Date: Thu, 9 Nov 2023 00:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:47:24.102511
- Title: On the Behavior of Audio-Visual Fusion Architectures in Identity
Verification Tasks
- Title(参考訳): 身元確認課題における視聴覚融合アーキテクチャの挙動について
- Authors: Daniel Claborne, Eric Slyman, Karl Pazdernik
- Abstract要約: 我々は、識別認証アーキテクチャを訓練し、音声と視覚表現を組み合わせたモデルの一部の変更を評価する。
出力埋め込みの平均化を示唆するVoxceleb1-Eテストセットの結果は、フルモダリティ設定におけるエラー率を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We train an identity verification architecture and evaluate modifications to
the part of the model that combines audio and visual representations, including
in scenarios where one input is missing in either of two examples to be
compared. We report results on the Voxceleb1-E test set that suggest averaging
the output embeddings improves error rate in the full-modality setting and when
a single modality is missing, and makes more complete use of the embedding
space than systems which use shared layers and discuss possible reasons for
this behavior.
- Abstract(参考訳): 同一性検証アーキテクチャをトレーニングし、比較対象の2つの例のいずれかに1つの入力が欠落しているシナリオを含む、音声と視覚表現を組み合わせたモデルの一部の変更を評価する。
出力埋め込みの平均化を示唆するVoxceleb1-Eテストセットの結果は、完全なモダリティ設定と単一モダリティの欠如によるエラー率の向上を示唆し、共有層を用いたシステムよりも組込みスペースの完全活用を図り、この動作の可能性を議論する。
関連論文リスト
- Visual and audio scene classification for detecting discrepancies in video: a baseline method and experimental protocol [6.749750044497733]
まず、両モードを用いた既存の分類基準と比較するため、音声視覚シーン分類器を設計、最適化する。
この分類器を音声と視覚的モダリティに別々に適用することにより、シーンクラスの不整合を検出することができる。
提案手法は,シーン分類における最先端の成果と,音声と視覚の相違検出における有望な結果を実現する。
論文 参考訳(メタデータ) (2024-05-01T08:30:58Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - A Study of Multimodal Person Verification Using Audio-Visual-Thermal
Data [4.149096351426994]
本研究では,音声・視覚・熱的モーダルを用いたマルチモーダル人物の検証手法について検討する。
我々は,最先端のディープラーニングアーキテクチャを用いて,一元的,二元的,三元的検証システムを実装した。
論文 参考訳(メタデータ) (2021-10-23T04:41:03Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Visual Composite Set Detection Using Part-and-Sum Transformers [74.26037922682355]
本稿では,エンドツーエンドのコンポジットセット検出を行うために,PST(Part-and-Sum Detection Transformer)という新しい手法を提案する。
PSTは、カスタムデザインの2段階モデルの結果とほぼ一致しながら、シングルステージモデル間で最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-05-05T16:31:32Z) - DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act
Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。
本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文 参考訳(メタデータ) (2020-08-16T14:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。