論文の概要: MA-LipNet: Multi-Dimensional Attention Networks for Robust Lipreading
- arxiv url: http://arxiv.org/abs/2601.20881v1
- Date: Tue, 27 Jan 2026 09:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.345014
- Title: MA-LipNet: Multi-Dimensional Attention Networks for Robust Lipreading
- Title(参考訳): MA-LipNet:ロバストリリップのための多次元アテンションネットワーク
- Authors: Matteo Rossi,
- Abstract要約: リップリーディング技術は、公共のセキュリティなどの分野において重要なアプリケーション価値を持っている。
既存のリップリーディング法は、特徴の識別性や一般化能力の低下に悩まされることが多い。
マルチアテンション・リブディング・ネットワーク(MA-LipNet)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.7276200658540084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lipreading, the technology of decoding spoken content from silent videos of lip movements, holds significant application value in fields such as public security. However, due to the subtle nature of articulatory gestures, existing lipreading methods often suffer from limited feature discriminability and poor generalization capabilities. To address these challenges, this paper delves into the purification of visual features from temporal, spatial, and channel dimensions. We propose a novel method named Multi-Attention Lipreading Network(MA-LipNet). The core of MA-LipNet lies in its sequential application of three dedicated attention modules. Firstly, a \textit{Channel Attention (CA)} module is employed to adaptively recalibrate channel-wise features, thereby mitigating interference from less informative channels. Subsequently, two spatio-temporal attention modules with distinct granularities-\textit{Joint Spatial-Temporal Attention (JSTA)} and \textit{Separate Spatial-Temporal Attention (SSTA)}-are leveraged to suppress the influence of irrelevant pixels and video frames. The JSTA module performs a coarse-grained filtering by computing a unified weight map across the spatio-temporal dimensions, while the SSTA module conducts a more fine-grained refinement by separately modeling temporal and spatial attentions. Extensive experiments conducted on the CMLR and GRID datasets demonstrate that MA-LipNet significantly reduces the Character Error Rate (CER) and Word Error Rate (WER), validating its effectiveness and superiority over several state-of-the-art methods. Our work highlights the importance of multi-dimensional feature refinement for robust visual speech recognition.
- Abstract(参考訳): 唇運動のサイレントビデオから音声コンテンツを復号する技術であるLipreadingは、公共セキュリティなどの分野において大きな応用価値を持っている。
しかし, 調音ジェスチャーの微妙な性質から, 従来のリップリーディング法は特徴識別能力の限界や一般化能力の低下に悩まされることが多い。
これらの課題に対処するため、本稿では、時間的、空間的、チャネル的次元からの視覚的特徴の浄化について検討する。
本稿では,MA-LipNet(Multi-Attention Lipreading Network)という新しい手法を提案する。
MA-LipNetのコアは、3つの専用アテンションモジュールのシーケンシャルな応用にある。
まず、‘textit{Channel Attention(CA)モジュールを使用して、チャネルの機能を適応的に再調整することで、より少ない情報チャネルからの干渉を緩和する。
その後、異なる粒度を持つ2つの時空間アテンションモジュール-\textit{Joint Spatial-Temporal Attention (JSTA) と \textit{Separate Spatial-Temporal Attention (SSTA) を利用して、無関係なピクセルやビデオフレームの影響を抑える。
JSTAモジュールは時空間次元の統一重みマップを計算し、SSTAモジュールは時空間の注意を別々にモデル化してよりきめ細やかな精細化を行う。
CMLRおよびGRIDデータセットで行った大規模な実験により、MA-LipNetはキャラクタエラー率(CER)とワードエラー率(WER)を著しく低減し、いくつかの最先端手法よりも有効性と優位性を検証した。
本研究は,頑健な音声認識のための多次元特徴改善の重要性を強調した。
関連論文リスト
- Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Variational Dual-path Attention Network for CSI-Based Gesture Recognition [0.0]
チャネル状態情報(CSI)に基づくWi-Fiジェスチャ認識は,エッジデバイス上での高次元ノイズやリソース制約に悩まされている。
本稿では,VDAN(Varial Dual-path Attention Network)という軽量機能前処理モジュールを提案する。
周波数領域フィルタリングと時間検出による構造的特徴改善を行う。
論文 参考訳(メタデータ) (2026-01-20T09:02:02Z) - Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Accurate and lightweight dehazing via multi-receptive-field non-local network and novel contrastive regularization [22.00352317851905]
ディープラーニングベースの手法は、画像のデハージング領域を支配している。
本稿では,MRFNLN(Multi-receptive-field non-local network)について述べる。
論文 参考訳(メタデータ) (2023-09-28T14:59:16Z) - AASeg: Attention Aware Network for Real Time Semantic Segmentation [0.0]
リアルタイムセマンティックセグメンテーションのための新しいアテンション・アウェアネットワークであるAASegを提案する。
AASegは精度と効率のトレードオフを実現し、従来のリアルタイム手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-27T20:01:55Z) - Multi-Attention-Network for Semantic Segmentation of Fine Resolution
Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。
本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。
線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文 参考訳(メタデータ) (2020-09-03T09:08:02Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Channel-Attention Dense U-Net for Multichannel Speech Enhancement [21.94418736688929]
我々は、ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入する。
我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-30T19:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。