論文の概要: Diffusion Large Language Models for Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2605.28456v1
- Date: Wed, 27 May 2026 13:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.072017
- Title: Diffusion Large Language Models for Visual Speech Recognition
- Title(参考訳): 視覚音声認識のための拡散大言語モデル
- Authors: Jeong Hun Yeo, Chae Won Kim, Hyeongseop Rha, Yong Man Ro,
- Abstract要約: 本稿では,最初の拡散大言語モデル(DLLM)に基づく視覚音声認識(VSR)フレームワークを提案する。
DLLM-VSRは早期に高信頼位置をコミットし、コミットトークンを双方向コンテキストとして、曖昧なトークンを洗練させる。
我々は、ビデオ長を用いて、可塑性転写長仮説を構築する長さ誘導型候補復号法を開発した。
提案手法はラベル付きトレーニングデータのみを用いて, LRS3 上で19.5%の最先端 WER を実現する。
- 参考スコア(独自算出の注目度): 56.81307584718608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Visual Speech Recognition (VSR) systems commonly rely on left-to-right autoregressive decoding, which can force premature decisions on visually ambiguous tokens before sufficient context is available. We propose DLLM-VSR, to the best of our knowledge, the first Diffusion Large Language Model (DLLM)-based VSR framework, formulating transcription as iterative masked denoising with flexible-order decoding. With confidence-based unmasking, DLLM-VSR commits high-confidence positions early and uses the committed tokens as bidirectional context to refine ambiguous ones. To adapt DLLMs to VSR, we introduce a two-stage masked-denoising training strategy that separates visual-to-text content alignment from length modeling. We further observe a performance gap with oracle-length decoding, which assumes access to the true transcript length, indicating that reducing target-length uncertainty can improve DLLM-based VSR. To reduce this gap, we develop length-guided candidate decoding, which uses video duration to construct plausible transcript-length hypotheses, decodes under multiple hypotheses, and reranks candidates using length plausibility and decoding confidence. The proposed method achieves a state-of-the-art WER of 19.5\% on LRS3 using only its labeled training data.
- Abstract(参考訳): 既存のVisual Speech Recognition (VSR) システムは左から右への自己回帰デコードに依存しており、十分なコンテキストが利用可能になる前に、視覚的に曖昧なトークンに初期決定を強制することができる。
本稿では, DLLM-VSRフレームワークを提案する。DLLM-VSRは, 最初の拡散大言語モデル (DLLM) ベースのVSRフレームワークであり, 書き起こしをフレキシブルオーダーデコードで復号化する反復マスクとして定式化したものである。
信頼に基づくアンマスキングでは、DLLM-VSRは早期に高信頼位置をコミットし、コミットトークンを双方向のコンテキストとして使用して曖昧なものを洗練する。
DLLMをVSRに適応させるために、視覚とテキストのコンテンツアライメントを長さモデリングから分離する2段階のマスマスキングトレーニング戦略を導入する。
さらに、実際の転写長を前提としたオラクル長復号法の性能ギャップを観察し、目標長の不確かさの低減がDLLMベースのVSRを改善することを示す。
このギャップを減らし、ビデオ時間を用いて可塑性転写長仮説を構築し、複数の仮説の下で復号し、長さ妥当性と復号性を利用して候補を復号する長誘導型候補復号法を開発した。
提案手法はラベル付きトレーニングデータのみを用いて, LRS3 上で19.5 %の最先端 WER を実現する。
関連論文リスト
- Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - Decoding in Latent Spaces for Efficient Inference in LLM-based Recommendation [75.72196852363116]
光遅延空間復号法(L2D)は効率的かつ効率的な遅延空間復号法である。
L2Dは言語空間の復号化よりも10倍以上高速で、性能の維持や向上が可能である。
論文 参考訳(メタデータ) (2025-09-15T02:30:35Z) - Leveraging Large Language Models in Visual Speech Recognition: Model Scaling, Context-Aware Decoding, and Iterative Polishing [12.635121718700217]
視覚音声認識(VSR)は、唇の動きを分析して音声を転写する。
大きな言語モデル(LLM)はVSRシステムに統合され、顕著な性能改善につながった。
本稿では,VSRタスクにLLMを効果的に活用する方法を体系的に検討する。
論文 参考訳(メタデータ) (2025-05-27T21:00:12Z) - Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition [17.376550014426623]
本稿では,大規模言語モデル(LLM)を用いたエンドツーエンド自動音声認識(E2E-ASR)の効率的な復号化手法を提案する。
復号時に遅延を伴うASR仮説にLLMスコアを適用する「遅延融合」を提案する。
遅延核融合により、浅い核融合やN-best再コーディングに比べてデコード速度と精度が向上することを示した。
論文 参考訳(メタデータ) (2025-01-16T03:01:50Z) - Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition [39.206005299985605]
「我々はAVSRのための新しいGERパラダイム、AVGERを提案し、それを聴いて再び見るという概念に従っている。」
AVGERは、現在の主流のAVSRシステムと比較して、ワードエラー率(WER)を24%削減できる。
論文 参考訳(メタデータ) (2025-01-03T10:51:14Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。