Fugu-MT 論文翻訳(概要): Modeling Biomechanical Constraint Violations for Language-Agnostic Lip-Sync Deepfake Detection

論文の概要: Modeling Biomechanical Constraint Violations for Language-Agnostic Lip-Sync Deepfake Detection

arxiv url: http://arxiv.org/abs/2604.16808v1
Date: Sat, 18 Apr 2026 03:32:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.18281
Title: Modeling Biomechanical Constraint Violations for Language-Agnostic Lip-Sync Deepfake Detection
Title（参考訳）: 言語非依存型リップシンクディープフェイク検出のためのバイオメカニカル拘束振動のモデル化
Authors: Hao Chen, Junnan Xu,
Abstract要約: 生成モデルは、本物の口腔関節の生体力学的制約を強制しない。我々は,MediaPipeから抽出した64個の腹腔内ランドマーク座標で動作する軽量フレームワークであるBioLipを用いて,この原理をインスタンス化する。
参考スコア（独自算出の注目度）: 5.14549984289357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current lip-sync deepfake detectors rely on pixel-level artifacts or audio-visual correspondence, failing to generalize across languages because these cues encode data-dependent patterns rather than universal physical laws. We identify a more fundamental principle: generative models do not enforce the biomechanical constraints of authentic orofacial articulation, producing measurably elevated temporal lip variance -- a signal we term temporal lip jitter -- that is empirically consistent across the speaker's language, ethnicity, and recording conditions. We instantiate this principle through BioLip, a lightweight framework operating on 64 perioral landmark coordinates extracted by MediaPipe.
Abstract（参考訳）: 現在のリップシンクディープフェイク検出器はピクセルレベルのアーティファクトやオーディオ視覚対応に依存しており、これらのキューは普遍的な物理法則ではなく、データ依存パターンを符号化するので、言語間を一般化することができない。生成モデルは、真正の口腔音節の生体力学的制約を強制せず、話者の言語、民族性、記録条件に対して経験的に整合した、時間的な唇ゆらぎ(時間的な唇ゆらぎという信号)を計測可能に高めている。 MediaPipeが抽出した64個の周囲のランドマーク座標で動作する軽量フレームワークであるBioLipを用いて、この原理をインスタンス化する。

関連論文リスト

SignDPO: Multi-level Direct Preference Optimisation for Skeleton-based Gloss-free Sign Language Translation [52.752934028506274]
我々は,新しい多レベル直接参照最適化フレームワークSignDPOを提案する。 SignDPOは、最先端のGloss-freeメソッドよりも一貫して優れていることを示す。以上の結果から,多レベル選好アライメントは,高エントロピーな骨格軌道と個別言語意味論のギャップを埋める強力なパラダイムであることが示唆された。
論文参考訳（メタデータ） (2026-04-20T09:59:18Z)
NeuroLip: An Event-driven Spatiotemporal Learning Framework for Cross-Scene Lip-Motion-based Visual Speaker Recognition [17.96933456290729]
唇運動は、一貫した調音パターンと筋の協調によって駆動される主観的行動力学を符号化する。 NeuroLipはイベントベースのフレームワークで、厳密だが実用的なクロスシーンプロトコルの下で、きめ細かい唇の動きをキャプチャする。 NeuroLipは、ほぼ完全に一致したシーン精度と堅牢なクロスシーン認識を実現し、目に見えない視点で71%以上の精度を達成する。
論文参考訳（メタデータ） (2026-04-17T05:42:17Z)
SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning [54.232148007248874]
現在の手話生産(SLP)フレームワークは、まさにトレードオフに直面している。本研究では,スペースを利用した新たなトレーニングパラダイムを提案し,人間の署名の真の基盤となる分布を捉える。これらの離散的なアンカーから高密度な動きを予測することにより、流体の調音を確実にしながら、回帰から平均への移動を緩和する。
論文参考訳（メタデータ） (2026-03-11T06:02:36Z)
Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding [41.209385903282374]
SemKeyは4つのセマンティックな目的を通じて信号基底生成を強制する新しいフレームワークである。 N-way Retrieval Accuracy と Fréchet Distance を採用することで,標準的な翻訳指標を越えることができる。
論文参考訳（メタデータ） (2026-02-09T02:47:07Z)
Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework [56.30142869506262]
塗り絵ベースの話し顔生成は、唇の動きだけを変更しながらポーズ、照明、ジェスチャーなどの映像の詳細を保存することを目的としている。この機構は、生成した唇が、駆動オーディオのみの影響ではなく、参照画像の影響を受けるリップリークを導入することができる。そこで本研究では,唇の漏れを分析し定量化するためのシステム評価手法を提案する。
論文参考訳（メタデータ） (2025-11-05T17:11:53Z)
Temporal-Aware Iterative Speech Model for Dementia Detection [0.0]
音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
論文参考訳（メタデータ） (2025-09-26T01:56:07Z)
Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳（メタデータ） (2025-05-26T07:21:20Z)
Careful Whisper -- leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。 Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文参考訳（メタデータ） (2023-08-02T15:53:59Z)
Learning and controlling the source-filter representation of speech with a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文参考訳（メタデータ） (2022-04-14T16:13:06Z)
Deep Metric Learning with Locality Sensitive Angular Loss for Self-Correcting Source Separation of Neural Spiking Signals [77.34726150561087]
本稿では, 深層学習に基づく手法を提案し, 自動掃除とロバスト分離フィルタの必要性に対処する。本手法は, ソース分離した高密度表面筋電図記録に基づいて, 人工的に劣化したラベルセットを用いて検証する。このアプローチにより、ニューラルネットワークは、信号のラベル付けの不完全な方法を使用して、神経生理学的時系列を正確に復号することができる。
論文参考訳（メタデータ） (2021-10-13T21:51:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。