論文の概要: Denoising-Diffusion Alignment for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2305.03614v4
- Date: Fri, 3 May 2024 04:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:26:14.426854
- Title: Denoising-Diffusion Alignment for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のためのデノジング拡散アライメント
- Authors: Leming Guo, Wanli Xue, Yuxi Zhou, Ze Kang, Tiantian Yuan, Zan Gao, Shengyong Chen,
- Abstract要約: 連続手話認識の主な課題は、ビデオと光沢シーケンス間の相互モダリティアライメントを実現する方法である。
新たにDDA(Denoising-Diffusion Global alignment)を提案する。
DDAは拡散に基づくグローバルアライメント技術を用いて、ビデオとグロスシーケンスをアライメントし、グローバル時間的コンテキストアライメントを容易にする。
- 参考スコア(独自算出の注目度): 24.376213903941746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous sign language recognition (CSLR) aims to promote active and accessible communication for the hearing impaired, by recognizing signs in untrimmed sign language videos to textual glosses sequentially. The key challenge of CSLR is how to achieve the cross-modality alignment between videos and gloss sequences. However, the current cross-modality paradigms of CSLR overlook using the glosses context to guide the video clips for global temporal context alignment, which further affects the visual to gloss mapping and is detrimental to recognition performance. To tackle this problem, we propose a novel Denoising-Diffusion global Alignment (DDA), which consists of a denoising-diffusion autoencoder and DDA loss function. DDA leverages diffusion-based global alignment techniques to align video with gloss sequence, facilitating global temporal context alignment. Specifically, DDA first proposes the auxiliary condition diffusion to conduct the gloss-part noised bimodal representations for video and gloss sequence. To address the problem of the recognition-oriented alignment knowledge represented in the diffusion denoising process cannot be feedback. The DDA further proposes the Denoising-Diffusion Autoencoder, which adds a decoder in the auxiliary condition diffusion to denoise the partial noisy bimodal representations via the designed DDA loss in self-supervised. In the denoising process, each video clip representation of video can be reliably guided to re-establish the global temporal context between them via denoising the gloss sequence representation. Experiments on three public benchmarks demonstrate that our DDA achieves state-of-the-art performances and confirm the feasibility of DDA for video representation enhancement.
- Abstract(参考訳): 連続手話認識(continuous sign language recognition, CSLR)は, 難聴者に対する能動的かつアクセシブルなコミュニケーションを促進することを目的とする。
CSLRの鍵となる課題は、ビデオと光沢シーケンス間の相互モダリティアライメントを実現する方法である。
しかし、CSLRの現在の相互モダリティパラダイムは、グロスコンテキストを用いて、映像クリップをグローバルな時間的コンテキストアライメントに導くことで、視覚から光沢マッピングにさらに影響を与え、認識性能に有害である。
この問題に対処するために,DDA と DDA の損失関数を組み合わせた DDA (Denoising-Diffusion Global Alignment) を提案する。
DDAは拡散に基づくグローバルアライメント技術を利用して、ビデオとグロスシーケンスをアライメントし、グローバル時間的コンテキストアライメントを容易にする。
具体的には、DDAはまず、ビデオおよび光沢シーケンスのための光沢部分ノイズバイモーダル表現を実行するための補助条件拡散を提案する。
拡散復調プロセスで表される認識指向アライメント知識の問題に対処するには、フィードバックはできない。
DDAはさらに、補助条件拡散にデコーダを追加し、自己監督型DDA損失によって部分雑音のバイモーダル表現をデノーズするDenoising-Diffusion Autoencoderを提案する。
復調処理において、ビデオの各ビデオクリップ表現を確実にガイドして、グロスシーケンス表現を復調することにより、それらの間のグローバルな時間的文脈を再確立することができる。
3つの公開ベンチマーク実験により、我々のDDAが最先端のパフォーマンスを達成し、DDAが映像表現の強化に有効であることを実証した。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language
Recognition with Variational Alignment [42.10603331311837]
手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。
近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。
視覚と言語の両方のモダリティの事前訓練された知識を十分に探求するために,SLR,-SLRのための新しいコントラッシブ・ビジュアル・トランスフォーメーションを提案する。
論文 参考訳(メタデータ) (2023-03-10T06:12:36Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。