論文の概要: GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2509.16031v2
- Date: Fri, 26 Sep 2025 14:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.676839
- Title: GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition
- Title(参考訳): GLip:ロバスト音声認識のためのグローバルローカル統合プログレッシブフレームワーク
- Authors: Tianyue Wang, Shuang Yang, Shiguang Shan, Xilin Chen,
- Abstract要約: 我々は、ロバストな視覚音声認識(VSR)のために設計されたグローバルローカル統合プログレッシブフレームワークGLipを提案する。
GLipは、グローバルな視覚的特徴とローカルな視覚的特徴の両方を、容易にアクセス可能な音声視覚データを用いて対応する音声音声単位に整合させることを学ぶ。
第2段階では、ローカル機能を関連するグローバルコンテキストと動的に統合するコンテキスト拡張モジュール(CEM)を導入します。
- 参考スコア(独自算出の注目度): 72.29071664964633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual speech recognition (VSR), also known as lip reading, is the task of recognizing speech from silent video. Despite significant advancements in VSR over recent decades, most existing methods pay limited attention to real-world visual challenges such as illumination variations, occlusions, blurring, and pose changes. To address these challenges, we propose GLip, a Global-Local Integrated Progressive framework designed for robust VSR. GLip is built upon two key insights: (i) learning an initial coarse alignment between visual features across varying conditions and corresponding speech content facilitates the subsequent learning of precise visual-to-speech mappings in challenging environments; (ii) under adverse conditions, certain local regions (e.g., non-occluded areas) often exhibit more discriminative cues for lip reading than global features. To this end, GLip introduces a dual-path feature extraction architecture that integrates both global and local features within a two-stage progressive learning framework. In the first stage, the model learns to align both global and local visual features with corresponding acoustic speech units using easily accessible audio-visual data, establishing a coarse yet semantically robust foundation. In the second stage, we introduce a Contextual Enhancement Module (CEM) to dynamically integrate local features with relevant global context across both spatial and temporal dimensions, refining the coarse representations into precise visual-speech mappings. Our framework uniquely exploits discriminative local regions through a progressive learning strategy, demonstrating enhanced robustness against various visual challenges and consistently outperforming existing methods on the LRS2 and LRS3 benchmarks. We further validate its effectiveness on a newly introduced challenging Mandarin dataset.
- Abstract(参考訳): 視覚音声認識(VSR)は、サイレントビデオから音声を認識するタスクである。
近年のVSRの進歩にもかかわらず、既存のほとんどの手法は照明のバリエーション、閉塞、ぼやけ、変化の引き起こしといった現実の視覚的課題に限定的に注意を払っている。
これらの課題に対処するために,ロバストなVSR用に設計されたグローバルローカル統合プログレッシブフレームワークであるGLipを提案する。
GLipは2つの重要な洞察に基づいて構築されている。
一 様々な状況における視覚的特徴とそれに対応する音声内容との間の初期的粗い一致の学習により、課題のある環境における正確な視覚音声マッピングの学習が容易になる。
(i) 異常条件下では, 地域によっては, 口唇読解が世界的特徴よりも差別的である場合が多い。
この目的のためにGLipでは,グローバル機能とローカル機能の両方を2段階のプログレッシブラーニングフレームワークに統合したデュアルパス機能抽出アーキテクチャを導入している。
最初の段階では、グローバルな視覚特徴と局所的な視覚特徴の両方を、容易にアクセス可能な音声-視覚データを用いて対応する音声単位に整合させることを学び、粗いが意味論的に堅牢な基盤を確立する。
第2段階では,空間的・時間的両次元にまたがる局所的特徴を動的に統合し,粗い表現を精密な視覚音声マッピングに変換するためのコンテキスト拡張モジュール(CEM)を導入する。
我々のフレームワークは、先進的な学習戦略を通じて差別的な地域を独自に活用し、様々な視覚的課題に対する堅牢性を実証し、LSS2とLSS3ベンチマークの既存の手法を一貫して上回っている。
新たに導入した挑戦的マンダリンデータセットにおいて,その有効性をさらに検証する。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [56.001484215308075]
本稿では,DINOv2の空間的精度とCLIPの言語理解を組み合わせた,新しいハイブリッドアプローチであるTalk2DINOを提案する。
本研究では,Talk2DINOの強力なセマンティック・ローカライゼーション能力によってセグメンテーションのプロセスが強化されることを示す。
実験の結果、Talk2DINOは教師なしのOVSベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-11-28T19:00:03Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - A Dual Semantic-Aware Recurrent Global-Adaptive Network For
Vision-and-Language Navigation [3.809880620207714]
VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定することを必要とする現実的だが困難なタスクである。
本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。
論文 参考訳(メタデータ) (2023-05-05T15:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。