論文の概要: InfoSyncNet: Information Synchronization Temporal Convolutional Network for Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2508.02460v1
- Date: Mon, 04 Aug 2025 14:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.377515
- Title: InfoSyncNet: Information Synchronization Temporal Convolutional Network for Visual Speech Recognition
- Title(参考訳): InfoSyncNet:視覚音声認識のための情報同期時間畳み込みネットワーク
- Authors: Junxiao Xue, Xiaozhen Liu, Xuecheng Wu, Fei Yu, Jun Wang,
- Abstract要約: サイレントビデオから音声コンテンツを推定することは、補助技術(AT)と拡張現実(AR)の応用に不可欠である
本稿では,データ拡張技術により拡張された一様でないシーケンスモデリングネットワークであるInfoSyncNetを紹介する。
LRWとLRW1000データセットの実験はInfoSyncNetの優位性を確認し、92.0%と60.7%のTop-1 ACCという新しい最先端の精度を達成した。
- 参考スコア(独自算出の注目度): 6.827104789103121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating spoken content from silent videos is crucial for applications in Assistive Technology (AT) and Augmented Reality (AR). However, accurately mapping lip movement sequences in videos to words poses significant challenges due to variability across sequences and the uneven distribution of information within each sequence. To tackle this, we introduce InfoSyncNet, a non-uniform sequence modeling network enhanced by tailored data augmentation techniques. Central to InfoSyncNet is a non-uniform quantization module positioned between the encoder and decoder, enabling dynamic adjustment to the network's focus and effectively handling the natural inconsistencies in visual speech data. Additionally, multiple training strategies are incorporated to enhance the model's capability to handle variations in lighting and the speaker's orientation. Comprehensive experiments on the LRW and LRW1000 datasets confirm the superiority of InfoSyncNet, achieving new state-of-the-art accuracies of 92.0% and 60.7% Top-1 ACC. The code is available for download (see comments).
- Abstract(参考訳): サイレントビデオから音声コンテンツを推定することは、Assistive Technology (AT) と Augmented Reality (AR) の応用に不可欠である。
しかし,ビデオ中の唇の動きシーケンスを単語に正確にマッピングすることは,シーケンス間のばらつきや,各シーケンス内での情報の不均一な分布によって大きな課題を生じさせる。
そこで本研究では,データ拡張技術により拡張された一様でないシーケンスモデリングネットワークであるInfoSyncNetを紹介する。
InfoSyncNetは、エンコーダとデコーダの間に位置する一様でない量子化モジュールであり、ネットワークの焦点を動的に調整し、視覚音声データの自然な矛盾を効果的に扱うことができる。
さらに、照明のバリエーションや話者の向きに対処するモデルの能力を高めるために、複数のトレーニング戦略が組み込まれている。
LRWとLRW1000データセットに関する総合的な実験はInfoSyncNetの優位性を確認し、92.0%と60.7%のTop-1 ACCという新しい最先端の精度を達成した。
コードはダウンロード可能だ(コメント参照)。
関連論文リスト
- OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [13.623360048766603]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文 参考訳(メタデータ) (2025-05-27T17:20:38Z) - UniSync: A Unified Framework for Audio-Visual Synchronization [7.120340851879775]
We present UniSync, a novel approach for a audio-visual sync using embedded similarities。
我々は、差分に基づく損失成分と、話者間非同期ペアによる対照的な学習フレームワークを強化する。
UniSyncは、標準データセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-03-20T17:16:03Z) - CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - LatentSync: Taming Audio-Conditioned Latent Diffusion Models for Lip Sync with SyncNet Supervision [13.447234794835921]
安定収束のために設計されたアーキテクチャを備えたStableSyncNetを紹介する。
提案手法は,HDTFおよびVoxCeleb2データセット上での様々な評価指標にまたがって,最先端のリップシンクアプローチを超越する。
論文 参考訳(メタデータ) (2024-12-12T13:20:52Z) - DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding [18.312501339046296]
我々は,繰り返しフレームと応答不関連フレームの両方で冗長が生じ,対応するフレームは異なる質問によって異なることを観察する。
このことは、詳細なビデオ情報保存とトークン予算削減のバランスをとるためにダイナミックエンコーディングを採用する可能性を示唆している。
論文 参考訳(メタデータ) (2024-11-19T09:16:54Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。