論文の概要: LASER: Lip Landmark Assisted Speaker Detection for Robustness
- arxiv url: http://arxiv.org/abs/2501.11899v1
- Date: Tue, 21 Jan 2025 05:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:23.581136
- Title: LASER: Lip Landmark Assisted Speaker Detection for Robustness
- Title(参考訳): レーザー:リップランドマークによるロバストネス検出
- Authors: Le Thien Phuc Nguyen, Zhuoran Yu, Yong Jae Lee,
- Abstract要約: 我々はロバストネスのためのリップランドマーク支援話者検出法(LASER)を提案する。
LASERは、唇の動きをオーディオに合わせることで、複雑な視覚シーンで話す個人を識別することを目的としている。
実験により、LASERは最先端のモデル、特に非同期音声や視覚のシナリオで性能が向上することが示された。
- 参考スコア(独自算出の注目度): 30.82311863795508
- License:
- Abstract: Active Speaker Detection (ASD) aims to identify speaking individuals in complex visual scenes. While humans can easily detect speech by matching lip movements to audio, current ASD models struggle to establish this correspondence, often misclassifying non-speaking instances when audio and lip movements are unsynchronized. To address this limitation, we propose Lip landmark Assisted Speaker dEtection for Robustness (LASER). Unlike models that rely solely on facial frames, LASER explicitly focuses on lip movements by integrating lip landmarks in training. Specifically, given a face track, LASER extracts frame-level visual features and the 2D coordinates of lip landmarks using a lightweight detector. These coordinates are encoded into dense feature maps, providing spatial and structural information on lip positions. Recognizing that landmark detectors may sometimes fail under challenging conditions (e.g., low resolution, occlusions, extreme angles), we incorporate an auxiliary consistency loss to align predictions from both lip-aware and face-only features, ensuring reliable performance even when lip data is absent. Extensive experiments across multiple datasets show that LASER outperforms state-of-the-art models, especially in scenarios with desynchronized audio and visuals, demonstrating robust performance in real-world video contexts. Code is available at \url{https://github.com/plnguyen2908/LASER_ASD}.
- Abstract(参考訳): Active Speaker Detection (ASD) は、複雑な視覚的な場面で話す個人を特定することを目的としている。
人間は音声に唇の動きを合わせることで容易に音声を検出できるが、現在のASDモデルは、この対応を確立するのに苦労し、音声と唇の動きが同期していない場合に、しばしば非話者のインスタンスを誤分類する。
この制限に対処するために,ロバストネスのためのLipランドマーク支援話者dEtection(LASER)を提案する。
顔フレームのみに依存しているモデルとは異なり、LASERはトレーニングにリップランドマークを統合することで、唇の動きを明示的に重視する。
具体的には、顔のトラックが与えられた場合、LASERは軽量検出器を用いて、フレームレベルの視覚的特徴と唇のランドマークの2D座標を抽出する。
これらの座標は密度の高い特徴写像に符号化され、唇の位置に関する空間的および構造的情報を提供する。
ランドマーク検出器は、しばしば困難な条件(例えば、低分解能、オクルージョン、極端な角度)下で失敗する可能性があることを認識し、補助的な整合性損失を組み込んで、リップデータがない場合でも、リップ認識とフェイスオンリーの両方の特徴からの予測を整列させ、信頼性の高い性能を確保する。
複数のデータセットにわたる大規模な実験により、LASERは最先端のモデル、特に非同期オーディオとビジュアルのシナリオにおいて、実世界のビデオコンテキストにおいて堅牢なパフォーマンスを示す。
コードは \url{https://github.com/plnguyen2908/LASER_ASD} で公開されている。
関連論文リスト
- MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting [12.852715177163608]
MuseTalkは、変分オートエンコーダによって符号化された潜時空間でリップシンクターゲットを生成する。
オンラインのフェース生成をサポートする。256x256で30 FPS以上で、起動遅延は無視できる。
論文 参考訳(メタデータ) (2024-10-14T03:22:26Z) - LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition [46.438575751932866]
LipGERはノイズロスASRのための視覚的手がかりを利用するためのフレームワークである。
LipGERは単語誤り率を1.1%-49.2%の範囲で改善することを示す。
また、リップモーションキューを備えた仮説転写ペアを備えた大規模データセットであるLipHypをリリースする。
論文 参考訳(メタデータ) (2024-06-06T18:17:59Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [58.72068260933836]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Three-Dimensional Lip Motion Network for Text-Independent Speaker
Recognition [24.433021731098474]
唇の動きは、話者の行動特性を反映し、話者認識における新しいバイオメトリックスとして使用することができる。
文レベルの3D唇動作を利用して,新しい3D唇動作ネットワーク(LMNet)を提案する。
新しい地域フィードバックモジュール (RFM) を提案する。
論文 参考訳(メタデータ) (2020-10-13T13:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。