論文の概要: RAL:Redundancy-Aware Lipreading Model Based on Differential Learning with Symmetric Views
- arxiv url: http://arxiv.org/abs/2409.05307v1
- Date: Mon, 9 Sep 2024 03:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:00:52.335342
- Title: RAL:Redundancy-Aware Lipreading Model Based on Differential Learning with Symmetric Views
- Title(参考訳): 対称性を考慮した差分学習に基づくAL:冗長性を考慮したLipreading Model
- Authors: Zejun gu, Junxia jiang,
- Abstract要約: 唇読みは、唇の動きのシーケンスを分析することによって話者の音声を解釈する。
現在、ほとんどのモデルは唇の左右半分を対称的な全体と見なしており、その違いを徹底的に研究していない。
この問題に対処するために,対称ビューを用いた差分学習戦略(DLSV)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip reading involves interpreting a speaker's speech by analyzing sequences of lip movements. Currently, most models regard the left and right halves of the lips as a symmetrical whole, lacking a thorough investigation of their differences. However, the left and right halves of the lips are not always symmetrical, and the subtle differences between them contain rich semantic information. In this paper, we propose a differential learning strategy with symmetric views (DLSV) to address this issue. Additionally, input images often contain a lot of redundant information unrelated to recognition results, which can degrade the model's performance. We present a redundancy-aware operation (RAO) to reduce it. Finally, to leverage the relational information between symmetric views and within each view, we further design an adaptive cross-view interaction module (ACVI). Experiments on LRW and LRW-1000 datasets fully demonstrate the effectiveness of our approach.
- Abstract(参考訳): 唇読みは、唇の動きのシーケンスを分析することによって話者の音声を解釈する。
現在、ほとんどのモデルは唇の左右半分を対称的な全体と見なしており、その違いを徹底的に研究していない。
しかし、唇の左右半分は必ずしも対称ではなく、両者の微妙な違いは豊かな意味情報を含んでいる。
本稿では,この問題を解決するために,対称ビュー(DLSV)を用いた差分学習戦略を提案する。
さらに、入力画像には認識結果とは無関係な多くの冗長な情報が含まれており、モデルの性能を劣化させる可能性がある。
冗長性認識手術(RAO)を行い,それを削減する。
最後に、対称ビューと各ビュー内の関係情報を活用するために、適応的なクロスビュー・インタラクション・モジュール(ACVI)を設計する。
LRWおよびLRW-1000データセットに関する実験は、我々のアプローチの有効性を十分に証明している。
関連論文リスト
- Separating common from salient patterns with Contrastive Representation
Learning [2.250968907999846]
コントラスト分析は、2つのデータセット間の変動の共通要因を分離することを目的としている。
変分オートエンコーダに基づく現在のモデルは意味表現の学習において性能が劣っている。
コントラスト分析に適合した意味表現表現を学習するためのコントラスト学習の活用を提案する。
論文 参考訳(メタデータ) (2024-02-19T08:17:13Z) - On the Importance of Contrastive Loss in Multimodal Learning [34.91089650516183]
簡単なマルチモーダルコントラスト学習モデルのトレーニングダイナミクスを解析する。
モデルが学習した表現の効率よくバランスをとるためには,コントラスト対が重要であることを示す。
論文 参考訳(メタデータ) (2023-04-07T16:25:18Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Latent Correlation-Based Multiview Learning and Self-Supervision: A
Unifying Perspective [41.80156041871873]
この研究は、教師なしのマルチビュー学習のための理論支援フレームワークを提供する。
私たちの開発は、各ビューが共有コンポーネントとプライベートコンポーネントの非線形混合であるマルチビューモデルの提案から始まります。
さらに、各ビュー内のプライベート情報を適切な正規化設計を用いて共有から確実に切り離すことができる。
論文 参考訳(メタデータ) (2021-06-14T00:12:36Z) - Understanding self-supervised Learning Dynamics without Contrastive
Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。
BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2021-02-12T22:57:28Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z) - Deformation Flow Based Two-Stream Network for Lip Reading [90.61063126619182]
唇読解とは、人が話しているときの唇領域の動きを分析して、音声の内容を認識するタスクである。
発話過程における隣り合うフレームの連続性と、同じ音素を発音する場合の異なる話者間の動きパターンの一致を観察する。
本研究では,隣接するフレーム間の変形流を学習するために変形流ネットワーク(DFN)を導入し,唇領域内の運動情報を直接キャプチャする。
そして、学習した変形流を元のグレースケールフレームと2ストリームネットワークに結合して唇読取を行う。
論文 参考訳(メタデータ) (2020-03-12T11:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。