論文の概要: UniCon: Unified Context Network for Robust Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2108.02607v1
- Date: Thu, 5 Aug 2021 13:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:29:57.880839
- Title: UniCon: Unified Context Network for Robust Active Speaker Detection
- Title(参考訳): UniCon:ロバストアクティブ話者検出のための統合コンテキストネットワーク
- Authors: Yuanhang Zhang, Susan Liang, Shuang Yang, Xiao Liu, Zhongqin Wu,
Shiguang Shan, Xilin Chen
- Abstract要約: 我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。
私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。
異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
- 参考スコア(独自算出の注目度): 111.90529347692723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new efficient framework, the Unified Context Network (UniCon),
for robust active speaker detection (ASD). Traditional methods for ASD usually
operate on each candidate's pre-cropped face track separately and do not
sufficiently consider the relationships among the candidates. This potentially
limits performance, especially in challenging scenarios with low-resolution
faces, multiple candidates, etc. Our solution is a novel, unified framework
that focuses on jointly modeling multiple types of contextual information:
spatial context to indicate the position and scale of each candidate's face,
relational context to capture the visual relationships among the candidates and
contrast audio-visual affinities with each other, and temporal context to
aggregate long-term information and smooth out local uncertainties. Based on
such information, our model optimizes all candidates in a unified process for
robust and reliable ASD. A thorough ablation study is performed on several
challenging ASD benchmarks under different settings. In particular, our method
outperforms the state-of-the-art by a large margin of about 15% mean Average
Precision (mAP) absolute on two challenging subsets: one with three candidate
speakers, and the other with faces smaller than 64 pixels. Together, our UniCon
achieves 92.0% mAP on the AVA-ActiveSpeaker validation set, surpassing 90% for
the first time on this challenging dataset at the time of submission. Project
website: https://unicon-asd.github.io/.
- Abstract(参考訳): 能動的話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。
ASDの従来の方法は、通常、各候補者の顔トラックで個別に動作し、候補者間の関係を十分に考慮していない。
これはパフォーマンスを制限する可能性があり、特に低解像度の顔や複数の候補を持つ挑戦的なシナリオでは。
提案手法は,複数種類のコンテキスト情報を協調的にモデル化することに焦点を当てた,新しい統合された枠組みである。各候補の顔の位置と規模を示す空間コンテキスト,候補者間の視覚的関係を捉える関係コンテキスト,長期的情報収集と局所的不確実性を円滑に行う時間コンテキストである。
このような情報に基づいて,本モデルはロバストで信頼性の高いasdのための統一プロセスにおいて,すべての候補を最適化する。
異なる設定下でいくつかの挑戦的なasdベンチマークで徹底的なアブレーション研究を行う。
特に,提案手法は,2つの挑戦的サブセットにおいて平均精度(mAP)絶対値(平均精度)を約15%の差で上回り,一方は3つの話者,もう一方は64ピクセル以下の顔を持つ。
当社のuniconはいずれも,ava-activespeakerバリデーションセット上で92.0%のマップを達成しています。
プロジェクトウェブサイト: https://unicon-asd.github.io/
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - Seeking the Shape of Sound: An Adaptive Framework for Learning
Voice-Face Association [94.7030305679589]
上記の課題を共同で解決するための新しい枠組みを提案します。
我々はモダリティアライメントプロセスにグローバル損失を導入する。
提案メソッドは、複数の設定で以前の方法よりも優れています。
論文 参考訳(メタデータ) (2021-03-12T14:10:48Z) - InstanceRefer: Cooperative Holistic Understanding for Visual Grounding
on Point Clouds through Instance Multi-level Contextual Referring [38.13420293700949]
InstanceReferと呼ばれる新しいモデルを提案し、ポイントクラウド上で優れた3Dビジュアルアースを実現します。
提案モデルではまず, 点雲上の単眼領域からインスタンスをフィルタリングし, 少数の候補を得る。
実験によれば、instancereferは以前のstate-of-the-artメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2021-03-01T16:59:27Z) - A Unified Deep Learning Framework for Short-Duration Speaker
Verification in Adverse Environments [16.91453126121351]
話者検証(SV)システムは、特に雑音や残響環境において、短い音声セグメントに対して堅牢であるべきである。
これら2つの要件を満たすため、機能ピラミッドモジュール(FPM)ベースのマルチスケールアグリゲーション(MSA)と自己適応型ソフトVAD(SAS-VAD)を導入する。
SV、VAD、SEモデルを統合されたディープラーニングフレームワークで組み合わせ、エンドツーエンドでネットワーク全体を共同でトレーニングします。
論文 参考訳(メタデータ) (2020-10-06T04:51:45Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。