論文の概要: VALLR-Pin: Dual-Decoding Visual Speech Recognition for Mandarin with Pinyin-Guided LLM Refinement
- arxiv url: http://arxiv.org/abs/2512.20032v1
- Date: Tue, 23 Dec 2025 03:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.738106
- Title: VALLR-Pin: Dual-Decoding Visual Speech Recognition for Mandarin with Pinyin-Guided LLM Refinement
- Title(参考訳): VALLR-Pin:Pinyin-Guided LLMリファインメントを用いたマンダリンのデュアルデコード音声認識
- Authors: Chang Sun, Dongliang Xie, Bo Qin, Hong Yang,
- Abstract要約: 本稿では,最近のVALLRアーキテクチャを英語からマンダリンに拡張する新しいフレームワークであるVALLR-Pinを提案する。
まず、共有ビデオエンコーダをデュアルデコーダに入力し、中国語の文字シーケンスと標準のPinyinロマン化の両方を共同で予測する。
我々は、ピニイン出力をこれらの候補中国語配列と連結し、曖昧さを解消し、転写を洗練させるために、それを大きな言語モデルに供給することで、プロンプトを構築する。
- 参考スコア(独自算出の注目度): 11.038780219360119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Speech Recognition aims to transcribe spoken words from silent lip-motion videos. This task is particularly challenging for Mandarin, as visemes are highly ambiguous and homophones are prevalent. We propose VALLR-Pin, a novel two-stage framework that extends the recent VALLR architecture from English to Mandarin. First, a shared video encoder feeds into dual decoders, which jointly predict both Chinese character sequences and their standard Pinyin romanization. The multi-task learning of character and phonetic outputs fosters robust visual-semantic representations. During inference, the text decoder generates multiple candidate transcripts. We construct a prompt by concatenating the Pinyin output with these candidate Chinese sequences and feed it to a large language model to resolve ambiguities and refine the transcription. This provides the LLM with explicit phonetic context to correct homophone-induced errors. Finally, we fine-tune the LLM on synthetic noisy examples: we generate imperfect Pinyin-text pairs from intermediate VALLR-Pin checkpoints using the training data, creating instruction-response pairs for error correction. This endows the LLM with awareness of our model's specific error patterns. In summary, VALLR-Pin synergizes visual features with phonetic and linguistic context to improve Mandarin lip-reading performance.
- Abstract(参考訳): 視覚音声認識は、サイレントリップモーションビデオから音声を転写することを目的としている。
この仕事はマンダリンにとって特に困難であり、ヴィセムは非常にあいまいであり、ホモフォンが一般的である。
本稿では,最近のVALLRアーキテクチャを英語からマンダリンに拡張する新しい2段階フレームワークであるVALLR-Pinを提案する。
まず、共有ビデオエンコーダをデュアルデコーダに入力し、中国語の文字シーケンスと標準のPinyinロマン化の両方を共同で予測する。
文字と音声の出力のマルチタスク学習は、堅牢な視覚的セマンティック表現を促進する。
推論中、テキストデコーダは複数の候補文字を生成する。
我々は、ピニイン出力をこれらの候補中国語配列と連結し、曖昧さを解消し、転写を洗練させるために、それを大きな言語モデルに供給することで、プロンプトを構築する。
これにより、LLMは、ホモフォンによるエラーを修正するための明示的な音声コンテキストを提供する。
最後に、LLMを合成ノイズの例で微調整し、トレーニングデータを用いて中間VALLR-Pinチェックポイントから不完全なPinyin-textペアを生成し、エラー訂正のための命令応答ペアを生成する。
これにより、LLMはモデルの特定のエラーパターンを認識します。
要約すると、VALLR-Pinは、マンダリンの唇読取性能を改善するために、音声的・言語的文脈と視覚的特徴を相乗化している。
関連論文リスト
- Transcribe, Translate, or Transliterate: An Investigation of Intermediate Representations in Spoken Language Models [68.69744941948986]
音声を大言語モデル(LM)と統合する音声言語モデル(SLM)は、音声エンコーダの出力をデコーダ LM に理解可能な表現にマッピングするモダリティアダプタ(MA)に依存している。
ここでは、3つのSLM(SALMONN, Qwen2-Audio, Phi-4-Multimodal-Instruct)におけるMA出力表現について検討する。
MA表現に最も近いデコーダLMトークンを見つけることで、MA表現の2つの戦略を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T21:19:40Z) - PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-20T06:50:56Z) - Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文 参考訳(メタデータ) (2023-08-18T15:27:22Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech
Recognition with Pinyin and Character [15.999657143705045]
ピニインと文字・綴り体系としての性格はそれぞれ、中国語における相互の昇進である。
そこで本研究では,2次元デコーダ変換器を用いた新しい中国語ASRモデルを提案する。
AISHELL-1データセットのテストセットの結果は、言語モデルを持たない音声-ピニイン-文字-相互作用(S PCI)モデルがテストセット上で9.85%の文字誤り率(CER)を達成することを示している。
論文 参考訳(メタデータ) (2022-01-26T07:59:03Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文 参考訳(メタデータ) (2021-04-06T03:01:09Z) - Polyphone Disambiguation in Mandarin Chinese with Semi-Supervised Learning [9.13211149475579]
漢字の大部分は単音であり、多声文字と呼ばれる特殊な文字群は複数の発音を持つ。
音声関連生成タスクの実行の前提条件として、正しい発音を複数の候補者に特定する必要がある。
マンダリン中国語多音不明瞭化のための半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-01T03:47:59Z) - g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset [14.323478990713477]
中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
論文 参考訳(メタデータ) (2020-04-07T05:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。