論文の概要: Landmark Guided Visual Feature Extractor for Visual Speech Recognition with Limited Resource
- arxiv url: http://arxiv.org/abs/2508.07233v1
- Date: Sun, 10 Aug 2025 08:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.768212
- Title: Landmark Guided Visual Feature Extractor for Visual Speech Recognition with Limited Resource
- Title(参考訳): 限られた資源を用いた視覚音声認識のためのランドマーク案内型視覚特徴外乱器
- Authors: Lei Yang, Junshan Jin, Mingyuan Zhang, Yi He, Bofan Chen, Shilin Wang,
- Abstract要約: 視覚音声認識は、無声音声における音声内容を特定する技術である。
深層学習法は雷などの視覚障害の影響を受けやすい。
本稿ではランドマーク付き視覚特徴抽出器を提案する。
- 参考スコア(独自算出の注目度): 24.004478804309763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual speech recognition is a technique to identify spoken content in silent speech videos, which has raised significant attention in recent years. Advancements in data-driven deep learning methods have significantly improved both the speed and accuracy of recognition. However, these deep learning methods can be effected by visual disturbances, such as lightning conditions, skin texture and other user-specific features. Data-driven approaches could reduce the performance degradation caused by these visual disturbances using models pretrained on large-scale datasets. But these methods often require large amounts of training data and computational resources, making them costly. To reduce the influence of user-specific features and enhance performance with limited data, this paper proposed a landmark guided visual feature extractor. Facial landmarks are used as auxiliary information to aid in training the visual feature extractor. A spatio-temporal multi-graph convolutional network is designed to fully exploit the spatial locations and spatio-temporal features of facial landmarks. Additionally, a multi-level lip dynamic fusion framework is introduced to combine the spatio-temporal features of the landmarks with the visual features extracted from the raw video frames. Experimental results show that this approach performs well with limited data and also improves the model's accuracy on unseen speakers.
- Abstract(参考訳): 視覚音声認識はサイレント音声ビデオ中の音声コンテンツを識別する技術であり,近年注目されている。
データ駆動型ディープラーニング手法の進歩は、認識の速度と精度の両方を大幅に改善した。
しかし,これらの深層学習手法は,雷条件や肌のテクスチャ,その他のユーザ固有の特徴など,視覚障害の影響を受けやすい。
データ駆動型アプローチは、大規模なデータセットで事前訓練されたモデルを使用して、これらの視覚障害によるパフォーマンス劣化を低減することができる。
しかし、これらの手法は大量のトレーニングデータと計算資源を必要とし、コストがかかる。
ユーザ固有の特徴の影響を低減し,限られたデータによる性能向上を図るために,ランドマーク付き視覚特徴抽出器を提案する。
顔のランドマークは、視覚的特徴抽出器の訓練を支援する補助情報として使用される。
顔のランドマークの空間的位置と時空間的特徴を完全に活用するために、時空間多グラフ畳み込みネットワークが設計された。
さらに、ランドマークの時空間的特徴と生のビデオフレームから抽出した視覚的特徴とを組み合わせるために、マルチレベルリップダイナミックフュージョンフレームワークが導入された。
実験結果から,本手法は限られたデータで良好に動作し,未知の話者に対するモデルの精度も向上することが示された。
関連論文リスト
- Revealing Latent Information: A Physics-inspired Self-supervised Pre-training Framework for Noisy and Sparse Events [25.348660233701708]
イベントカメラは、高時間分解能と広ダイナミックレンジでデータを記録する。
イベントデータは本質的にスパースでノイズが多く、主に明るさの変化を反映している。
本稿では,イベントデータ中の潜伏情報を完全に明らかにする自己教師付き事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T15:38:36Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Unsupervised Semantic Segmentation Through Depth-Guided Feature Correlation and Sampling [14.88236554564287]
本研究では,シーンの構造に関する情報を学習プロセスに組み込むことにより,教師なし学習の進歩を構築する。
本研究では,(1)特徴マップと深度マップを空間的に相関させて深度-特徴相関を学習し,シーンの構造に関する知識を誘導する。
次に,シーンの深度情報に対する3次元サンプリング技術を利用して,より効果的に特徴を抽出するために,最遠点サンプリングを実装した。
論文 参考訳(メタデータ) (2023-09-21T11:47:01Z) - DeepVisualInsight: Time-Travelling Visualization for Spatio-Temporal
Causality of Deep Classification Training [7.4940788786485095]
本稿では,深層学習画像の学習中に因果性を示すことを目的とした,時間旅行型ビジュアルソリューションDeepVisualInsightを提案する。
本研究では,学習した入力表現のレイアウトと,連続したエポックにおける境界にどのような影響を及ぼすかを示す。
実験により, ベースライン手法と比較して, 空間的・時間的特性と可視化効率について, 最高の可視化性能が得られることを示した。
論文 参考訳(メタデータ) (2021-12-31T07:05:31Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - Learning Temporally Invariant and Localizable Features via Data
Augmentation for Video Recognition [9.860323576151897]
画像認識において、空間的不変性を学ぶことは、認識性能と拡張性を改善する上で重要な要素である。
本研究では,ビデオの時間的不変性や時間的局所的特徴を学習するために,これらの戦略を時間的次元に拡張する。
新たな時間的データ拡張アルゴリズムに基づき,限られた訓練データのみを用いて映像認識性能を向上する。
論文 参考訳(メタデータ) (2020-08-13T06:56:52Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。