論文の概要: Denoising-Diffusion Alignment for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2305.03614v3
- Date: Mon, 5 Feb 2024 17:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:40:30.387288
- Title: Denoising-Diffusion Alignment for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のためのデノジング拡散アライメント
- Authors: Leming Guo and Wanli Xue and Ze Kang and Yuxi Zhou and Tiantian Yuan
and Zan Gao and Shengyong Chen
- Abstract要約: DDA(Denoising-Diffusion Global Alignment scheme)を提案する。
DDAは「エンターテイメント・ビデオ・グロス・シーケンス」のマッピングのモデル化に重点を置いている
3つの公開ベンチマーク実験により,本手法が最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 25.59857671676435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a key to social good, continuous sign language recognition (CSLR) aims to
promote active and accessible communication for the hearing impaired. Current
CSLR research adopts a cross-modality alignment scheme to learn the mapping
relationship between "video clip-textual gloss". However, this local alignment
method, especially with weak data annotation, ignores the contextual
information of modalities and directly reduces the generalization of visual
features. To this end, we propose a novel Denoising-Diffusion global Alignment
scheme (DDA), which focuses on modeling the mapping of the "entire video-gloss
sequence". DDA consists of a partial noising process strategy and a
denoising-diffusion autoencoder. The former is used to achieve efficient
guidance of the text modality to the visual modality; the latter learns the
global alignment information of the two modalities in a denoising manner. Our
DDA confirms the feasibility of diffusion models for visual representation
learning in CSLR. Experiments on three public benchmarks demonstrate that our
method achieves state-of-the-art performances. Furthermore, the proposed method
can be a plug-and-play optimization to generalize other CSLR methods.
- Abstract(参考訳): 社会的善の鍵として、連続手話認識(CSLR)は聴覚障害に対するアクティブでアクセスしやすいコミュニケーションを促進することを目的としている。
現在のCSLR研究は、ビデオクリップ・テクスチュアル・グロス間のマッピング関係を学習するために、モダリティ間のアライメント方式を採用している。
しかし、この局所的アライメント法、特に弱いデータアノテーションでは、モダリティの文脈情報を無視し、視覚的特徴の一般化を直接減らす。
そこで,本稿では,映像グロス列のマッピングのモデル化に焦点をあてた,dda(denoising-diffusion global alignment scheme)を提案する。
DDAは部分的なノイズ発生処理戦略とデノイング拡散オートエンコーダから構成される。
前者は視覚的モダリティに対するテキストモダリティの効率的なガイダンスを達成するために使用され、後者は2つのモダリティのグローバルアライメント情報を視覚的に学習する。
CSLRにおける視覚表現学習における拡散モデルの有効性を確認した。
3つの公開ベンチマーク実験により,本手法が最先端の性能を実現することを示す。
さらに,提案手法は,他のCSLR手法を一般化するためのプラグアンドプレイ最適化である。
関連論文リスト
- Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Lip to Speech Synthesis with Visual Context Attentional GAN [32.65865343643458]
視覚的文脈意図型GAN (VCA-GAN) を新たに提案する。
VCA-GANは音声合成中に局所的および大域的な唇運動を共同でモデル化することができる。
論文 参考訳(メタデータ) (2022-04-04T06:49:05Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。