論文の概要: Cascade-Free Mandarin Visual Speech Recognition via Semantic-Guided Cross-Representation Alignment
- arxiv url: http://arxiv.org/abs/2603.21808v1
- Date: Mon, 23 Mar 2026 10:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.61573
- Title: Cascade-Free Mandarin Visual Speech Recognition via Semantic-Guided Cross-Representation Alignment
- Title(参考訳): セマンティック誘導型クロス表現アライメントによるカスケードフリーマンダリン音声認識
- Authors: Lei Yang, Yi He, Fei Wu, Shilin Wang,
- Abstract要約: 中国語のマンダリン視覚音声認識(VSR)は近年進歩している課題であるが、英語のような非音素言語のパフォーマンスには遅れがある。
第一の課題は、シーケンス・ツー・シーケンス・モデリングのアプローチの有効性を制限するマンダリンの音節の性質から生じる。
既存の中国のVSRシステムは、認識精度を高めるために、一般的に中間表現(特にピニイン)をカスケードアーキテクチャに組み込んでいる。
本稿では,音素やビセメを含む複数の中間表現を協調的に統合したマルチタスク学習に基づくカスケードフリーアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 33.460211657329545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese mandarin visual speech recognition (VSR) is a task that has advanced in recent years, yet still lags behind the performance on non-tonal languages such as English. One primary challenge arises from the tonal nature of Mandarin, which limits the effectiveness of conventional sequence-to-sequence modeling approaches. To alleviate this issue, existing Chinese VSR systems commonly incorporate intermediate representations, most notably pinyin, within cascade architectures to enhance recognition accuracy. While beneficial, in these cascaded designs, the subsequent stage during inference depends on the output of the preceding stage, leading to error accumulation and increased inference latency. To address these limitations, we propose a cascade-free architecture based on multitask learning that jointly integrates multiple intermediate representations, including phoneme and viseme, to better exploit contextual information. The proposed semantic-guided local contrastive loss temporally aligns the features, enabling on-demand activation during inference, thereby providing a trade-off between inference efficiency and performance while mitigating error accumulation caused by projection and re-embedding. Experiments conducted on publicly available datasets demonstrate that our method achieves superior recognition performance.
- Abstract(参考訳): 中国語のマンダリン視覚音声認識(VSR)は近年進歩している課題であるが、英語のような非音素言語のパフォーマンスには遅れがある。
1つの大きな課題は、従来のシーケンス・ツー・シーケンス・モデリング手法の有効性を制限するマンダリンの音節の性質から生じる。
この問題を緩和するために、既存の中国のVSRシステムは一般的に、認識精度を高めるために、中間表現(特にピニイン)をカスケードアーキテクチャに組み込んでいる。
これらのカスケード設計では、後続の推論の段階は前段の出力に依存するため、エラーの蓄積と推論遅延の増加につながる。
これらの制約に対処するため,マルチタスク学習に基づくカスケードフリーアーキテクチャを提案する。
提案した意味誘導型局所的コントラスト損失は、時間的に特徴を整列し、推論中のオンデマンドアクティベーションを可能にし、プロジェクションと再埋め込みによるエラー蓄積を軽減しつつ、推論効率と性能のトレードオフを与える。
公開データセットを用いた実験により,本手法が優れた認識性能を実現することを示す。
関連論文リスト
- Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction [5.925383490825323]
視覚言語モデル(VLM)は、大きな言語モデル(LLM)の印象的な能力を生かして、目覚ましい進歩を遂げた。
それにもかかわらず、幻覚として知られる重要な課題は、モデルが画像から欠落している物体や属性を過度に記述するときに起こる。
この制限により、高スループットアプリケーションにおけるモデルの信頼性が低下する。
論文 参考訳(メタデータ) (2025-03-06T14:11:00Z) - Same Question, Different Words: A Latent Adversarial Framework for Prompt Robustness [9.208007322096535]
本稿では,2ループ対向フレームワークであるLatent Adversarial Paraphrasing (LAP)を提案する。
LAPは学習可能な摂動を訓練して「ラテント連続パラフレーズ」として機能させる
複数のLLMアーキテクチャにおけるLAPの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-03-03T09:36:50Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。