論文の概要: MA-LipNet: Multi-Dimensional Attention Networks for Robust Lipreading
- arxiv url: http://arxiv.org/abs/2601.20881v1
- Date: Tue, 27 Jan 2026 09:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.345014
- Title: MA-LipNet: Multi-Dimensional Attention Networks for Robust Lipreading
- Title(参考訳): MA-LipNet:ロバストリリップのための多次元アテンションネットワーク
- Authors: Matteo Rossi,
- Abstract要約: リップリーディング技術は、公共のセキュリティなどの分野において重要なアプリケーション価値を持っている。
既存のリップリーディング法は、特徴の識別性や一般化能力の低下に悩まされることが多い。
マルチアテンション・リブディング・ネットワーク(MA-LipNet)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.7276200658540084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lipreading, the technology of decoding spoken content from silent videos of lip movements, holds significant application value in fields such as public security. However, due to the subtle nature of articulatory gestures, existing lipreading methods often suffer from limited feature discriminability and poor generalization capabilities. To address these challenges, this paper delves into the purification of visual features from temporal, spatial, and channel dimensions. We propose a novel method named Multi-Attention Lipreading Network(MA-LipNet). The core of MA-LipNet lies in its sequential application of three dedicated attention modules. Firstly, a \textit{Channel Attention (CA)} module is employed to adaptively recalibrate channel-wise features, thereby mitigating interference from less informative channels. Subsequently, two spatio-temporal attention modules with distinct granularities-\textit{Joint Spatial-Temporal Attention (JSTA)} and \textit{Separate Spatial-Temporal Attention (SSTA)}-are leveraged to suppress the influence of irrelevant pixels and video frames. The JSTA module performs a coarse-grained filtering by computing a unified weight map across the spatio-temporal dimensions, while the SSTA module conducts a more fine-grained refinement by separately modeling temporal and spatial attentions. Extensive experiments conducted on the CMLR and GRID datasets demonstrate that MA-LipNet significantly reduces the Character Error Rate (CER) and Word Error Rate (WER), validating its effectiveness and superiority over several state-of-the-art methods. Our work highlights the importance of multi-dimensional feature refinement for robust visual speech recognition.
- Abstract(参考訳): 唇運動のサイレントビデオから音声コンテンツを復号する技術であるLipreadingは、公共セキュリティなどの分野において大きな応用価値を持っている。
しかし, 調音ジェスチャーの微妙な性質から, 従来のリップリーディング法は特徴識別能力の限界や一般化能力の低下に悩まされることが多い。
これらの課題に対処するため、本稿では、時間的、空間的、チャネル的次元からの視覚的特徴の浄化について検討する。
本稿では,MA-LipNet(Multi-Attention Lipreading Network)という新しい手法を提案する。
MA-LipNetのコアは、3つの専用アテンションモジュールのシーケンシャルな応用にある。
まず、‘textit{Channel Attention(CA)モジュールを使用して、チャネルの機能を適応的に再調整することで、より少ない情報チャネルからの干渉を緩和する。
その後、異なる粒度を持つ2つの時空間アテンションモジュール-\textit{Joint Spatial-Temporal Attention (JSTA) と \textit{Separate Spatial-Temporal Attention (SSTA) を利用して、無関係なピクセルやビデオフレームの影響を抑える。
JSTAモジュールは時空間次元の統一重みマップを計算し、SSTAモジュールは時空間の注意を別々にモデル化してよりきめ細やかな精細化を行う。
CMLRおよびGRIDデータセットで行った大規模な実験により、MA-LipNetはキャラクタエラー率(CER)とワードエラー率(WER)を著しく低減し、いくつかの最先端手法よりも有効性と優位性を検証した。
本研究は,頑健な音声認識のための多次元特徴改善の重要性を強調した。
関連論文リスト
- FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Accurate and lightweight dehazing via multi-receptive-field non-local network and novel contrastive regularization [22.00352317851905]
ディープラーニングベースの手法は、画像のデハージング領域を支配している。
本稿では,MRFNLN(Multi-receptive-field non-local network)について述べる。
論文 参考訳(メタデータ) (2023-09-28T14:59:16Z) - AASeg: Attention Aware Network for Real Time Semantic Segmentation [0.0]
リアルタイムセマンティックセグメンテーションのための新しいアテンション・アウェアネットワークであるAASegを提案する。
AASegは精度と効率のトレードオフを実現し、従来のリアルタイム手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-27T20:01:55Z) - Multi-Attention-Network for Semantic Segmentation of Fine Resolution
Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。
本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。
線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文 参考訳(メタデータ) (2020-09-03T09:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。