論文の概要: NeuroLip: An Event-driven Spatiotemporal Learning Framework for Cross-Scene Lip-Motion-based Visual Speaker Recognition
- arxiv url: http://arxiv.org/abs/2604.15718v1
- Date: Fri, 17 Apr 2026 05:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.754109
- Title: NeuroLip: An Event-driven Spatiotemporal Learning Framework for Cross-Scene Lip-Motion-based Visual Speaker Recognition
- Title(参考訳): NeuroLip: クロスシーンリップモーションに基づく視覚的話者認識のためのイベント駆動時空間学習フレームワーク
- Authors: Junguang Yao, Wenye Liu, Stjepan Picek, Yue Zheng,
- Abstract要約: 唇運動は、一貫した調音パターンと筋の協調によって駆動される主観的行動力学を符号化する。
NeuroLipはイベントベースのフレームワークで、厳密だが実用的なクロスシーンプロトコルの下で、きめ細かい唇の動きをキャプチャする。
NeuroLipは、ほぼ完全に一致したシーン精度と堅牢なクロスシーン認識を実現し、目に見えない視点で71%以上の精度を達成する。
- 参考スコア(独自算出の注目度): 17.96933456290729
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual speaker recognition based on lip motion offers a silent, hands-free, and behavior-driven biometric solution that remains effective even when acoustic cues are unavailable. Compared to traditional methods that rely heavily on appearance-dependent representations, lip motion encodes subject-specific behavioral dynamics driven by consistent articulation patterns and muscle coordination, offering inherent stability across environmental changes. However, capturing these robust, fine-grained dynamics is challenging for conventional frame-based cameras due to motion blur and low dynamic range. To exploit the intrinsic stability of lip motion and address these sensing limitations, we propose NeuroLip, an event-based framework that captures fine-grained lip dynamics under a strict yet practical cross-scene protocol: training is performed under a single controlled condition, while recognition must generalize to unseen viewing and lighting conditions. NeuroLip features a 1) Temporal-aware Voxel Encoding module with adaptive event weighting, 2) Structure-aware Spatial Enhancer that amplifies discriminative behavioral patterns by suppressing noise while preserving vertically structured motion information, and 3) Polarity Consistency Regularization mechanism to retain motion-direction cues encoded in event polarities. To facilitate systematic evaluation, we introduce DVSpeaker, a comprehensive event-based lip-motion dataset comprising 50 subjects recorded under four distinct viewpoint and illumination scenarios. Extensive experiments demonstrate that NeuroLip achieves near-perfect matched-scene accuracy and robust cross-scene generalization, attaining over 71% accuracy on unseen viewpoints and nearly 76% under low-light conditions, outperforming representative existing methods by at least 8.54%. The dataset and code are publicly available at https://github.com/JiuZeongit/NeuroLip.
- Abstract(参考訳): 唇の動きに基づく視覚的話者認識は、静かでハンズフリーで行動駆動型バイオメトリックソリューションを提供する。
外観に依存した表現に大きく依存する伝統的な方法と比較して、唇の動きは、一貫した調音パターンと筋肉の協調によって引き起こされる主観的な行動力学を符号化し、環境の変化に対して固有の安定性を提供する。
しかし、動きのぼやけやダイナミックレンジの低さにより、従来のフレームベースのカメラでは、これらの頑丈できめ細かなダイナミックスを捉えることは困難である。
唇運動の本質的な安定性を生かし,これらの感覚的制約に対処するために,厳密かつ実用的なクロスシーンプロトコルの下で微細な唇運動を捕捉するイベントベースのフレームワークであるNeuroLipを提案する。
NeuroLipは、適応的なイベント重み付けを備えた一時対応のVoxel Encodingモジュールを備えている。
2)垂直に構造化された動き情報を保持しながら騒音を抑え、識別行動パターンを増幅する構造対応空間エンハンサー
3) イベント極性に符号化された動き方向の手がかりを保持するための極性一貫性規則化機構。
DVSpeakerは、4つの異なる視点と照明シナリオで記録された50の被験者からなる総合的なイベントベースリップモーションデータセットである。
大規模な実験により、NeuroLipはマッチしたシーンの精度と強固なクロスシーンの一般化をほぼ完璧に達成し、目に見えない視点で71%以上の精度を達成し、低照度条件下では76%近くを達成し、代表的既存の手法を少なくとも8.54%上回った。
データセットとコードはhttps://github.com/JiuZeongit/NeuroLipで公開されている。
関連論文リスト
- V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising [65.5867130156805]
統合JTフレームワークにおける視覚的コデノゲーションの体系的研究であるV-Coについて述べる。
本研究は,視覚的コデノジングを効果的に行うための4つの重要な要素を明らかにする。
V-Coは、基礎となる画素空間拡散ベースラインと強い前の画素拡散法より優れている。
論文 参考訳(メタデータ) (2026-03-17T17:01:54Z) - MotionCFG: Boosting Motion Dynamics via Stochastic Concept Perturbation [60.48914865049489]
MotionCFGは、ターゲットコンセプトとノイズブレーブの概念を対比することにより、モーションダイナミクスを強化するフレームワークである。
明示的な否定とは異なり、このアプローチはグローバルな意味的アイデンティティをシフトすることなく暗黙的な否定的なガイダンスを促進する。
MotionCFGは、最先端のT2Vフレームワーク間のモーションダイナミクスを一貫して改善する。
論文 参考訳(メタデータ) (2026-03-14T18:39:37Z) - Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering [33.3588824921581]
メタ認知的自己補正プロセスをシミュレートするトレーニングフリー推論フレームワークであるVision-Language Introspection (VLI)を導入する。
VLIは高度なモデルで最先端のパフォーマンスを実現し、MMHal-Benchではオブジェクト幻覚率を12.67%削減し、POPEでは精度を5.8%向上した。
論文 参考訳(メタデータ) (2026-01-08T17:49:13Z) - MotionTeller: Multi-modal Integration of Wearable Time-Series with LLMs for Health and Behavioral Understanding [4.158479111055355]
MotionTellerは、大規模言語モデル(LLM)と微小レベルのウェアラブルアクティビティデータを統合した生成フレームワークである。
我々は,実世界のNHANES記録から得られた554383対の新たなデータセットを構築し,言語トークンにのみ依存したクロスエントロピー損失を用いてモデルを訓練する。
MotionTellerは高いセマンティック忠実度(BERT-F1 = 0.924)と語彙精度(ROUGE-1 = 0.722)を実現し、ROUGE-1ではプロンプトベースのベースラインを7%上回っている。
論文 参考訳(メタデータ) (2025-12-25T04:37:07Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Context-aware Fairness Evaluation and Mitigation in LLMs [16.594400974742523]
大きな言語モデルは、しばしばその内部表現に埋め込まれた望ましくない振る舞いを示す。
プルーニングベースの手法は、特定の行動に責任があるニューロンを調整することでバイアスを減らす柔軟で透明な方法を提供する。
本研究では,文脈認識ニューロンの活性化を検知する動的で可逆的なプルーニングに基づくフレームワークを提案し,アダプティブマスキングを適用して生成時の影響を調節する。
論文 参考訳(メタデータ) (2025-10-21T06:13:17Z) - An Exact Gradient Framework for Training Spiking Neural Networks [0.7366405857677227]
スパイクニューラルネットワークは本質的に、離散スパイクイベントの正確なタイミングを情報処理に頼っている。
本稿では、シナプス重みと伝送遅延に関して正確な損失勾配を計算するイベント駆動学習フレームワークを提案する。
複数のベンチマークの実験では、既存の手法と比較して精度(最大7%)、タイミング精度、堅牢性が顕著に向上した。
論文 参考訳(メタデータ) (2025-07-08T11:55:27Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Allostatic Control of Persistent States in Spiking Neural Networks for perception and computation [79.16635054977068]
本稿では,アロスタシスの概念を内部表現の制御に拡張することにより,環境に対する知覚的信念を更新するための新しいモデルを提案する。
本稿では,アトラクタネットワークにおける活動の急増を空間的数値表現として利用する数値認識の応用に焦点を当てる。
論文 参考訳(メタデータ) (2025-03-20T12:28:08Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Neuromorphic Camera Denoising using Graph Neural Network-driven
Transformers [3.805262583092311]
ニューロモルフィック・ビジョン(Neuromorphic vision)は、コンピュータビジョンコミュニティのパラダイムシフトを引き起こしたバイオインスパイアされた技術である。
ニューロモルフィックカメラは、かなりの量の計測ノイズに悩まされている。
このノイズは、ニューロモルフィック事象に基づく知覚とナビゲーションアルゴリズムの性能を劣化させる。
論文 参考訳(メタデータ) (2021-12-17T18:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。