論文の概要: Denoising-Diffusion Alignment for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2305.03614v4
- Date: Fri, 3 May 2024 04:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:26:14.426854
- Title: Denoising-Diffusion Alignment for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のためのデノジング拡散アライメント
- Authors: Leming Guo, Wanli Xue, Yuxi Zhou, Ze Kang, Tiantian Yuan, Zan Gao, Shengyong Chen,
- Abstract要約: 連続手話認識の主な課題は、ビデオと光沢シーケンス間の相互モダリティアライメントを実現する方法である。
新たにDDA(Denoising-Diffusion Global alignment)を提案する。
DDAは拡散に基づくグローバルアライメント技術を用いて、ビデオとグロスシーケンスをアライメントし、グローバル時間的コンテキストアライメントを容易にする。
- 参考スコア(独自算出の注目度): 24.376213903941746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous sign language recognition (CSLR) aims to promote active and accessible communication for the hearing impaired, by recognizing signs in untrimmed sign language videos to textual glosses sequentially. The key challenge of CSLR is how to achieve the cross-modality alignment between videos and gloss sequences. However, the current cross-modality paradigms of CSLR overlook using the glosses context to guide the video clips for global temporal context alignment, which further affects the visual to gloss mapping and is detrimental to recognition performance. To tackle this problem, we propose a novel Denoising-Diffusion global Alignment (DDA), which consists of a denoising-diffusion autoencoder and DDA loss function. DDA leverages diffusion-based global alignment techniques to align video with gloss sequence, facilitating global temporal context alignment. Specifically, DDA first proposes the auxiliary condition diffusion to conduct the gloss-part noised bimodal representations for video and gloss sequence. To address the problem of the recognition-oriented alignment knowledge represented in the diffusion denoising process cannot be feedback. The DDA further proposes the Denoising-Diffusion Autoencoder, which adds a decoder in the auxiliary condition diffusion to denoise the partial noisy bimodal representations via the designed DDA loss in self-supervised. In the denoising process, each video clip representation of video can be reliably guided to re-establish the global temporal context between them via denoising the gloss sequence representation. Experiments on three public benchmarks demonstrate that our DDA achieves state-of-the-art performances and confirm the feasibility of DDA for video representation enhancement.
- Abstract(参考訳): 連続手話認識(continuous sign language recognition, CSLR)は, 難聴者に対する能動的かつアクセシブルなコミュニケーションを促進することを目的とする。
CSLRの鍵となる課題は、ビデオと光沢シーケンス間の相互モダリティアライメントを実現する方法である。
しかし、CSLRの現在の相互モダリティパラダイムは、グロスコンテキストを用いて、映像クリップをグローバルな時間的コンテキストアライメントに導くことで、視覚から光沢マッピングにさらに影響を与え、認識性能に有害である。
この問題に対処するために,DDA と DDA の損失関数を組み合わせた DDA (Denoising-Diffusion Global Alignment) を提案する。
DDAは拡散に基づくグローバルアライメント技術を利用して、ビデオとグロスシーケンスをアライメントし、グローバル時間的コンテキストアライメントを容易にする。
具体的には、DDAはまず、ビデオおよび光沢シーケンスのための光沢部分ノイズバイモーダル表現を実行するための補助条件拡散を提案する。
拡散復調プロセスで表される認識指向アライメント知識の問題に対処するには、フィードバックはできない。
DDAはさらに、補助条件拡散にデコーダを追加し、自己監督型DDA損失によって部分雑音のバイモーダル表現をデノーズするDenoising-Diffusion Autoencoderを提案する。
復調処理において、ビデオの各ビデオクリップ表現を確実にガイドして、グロスシーケンス表現を復調することにより、それらの間のグローバルな時間的文脈を再確立することができる。
3つの公開ベンチマーク実験により、我々のDDAが最先端のパフォーマンスを達成し、DDAが映像表現の強化に有効であることを実証した。
関連論文リスト
- Temporal As a Plugin: Unsupervised Video Denoising with Pre-Trained Image Denoisers [30.965705043127144]
本稿では,TAP (Temporal As aTAP) という,教師なしのビデオデノベーションフレームワークを提案する。
時間的加群を組み込むことで、ノイズの多いフレームをまたがる時間的情報を活用することができ、空間的 denoising のパワーを補完することができる。
他の教師なしビデオ復号化手法と比較して,本フレームワークは,SRGBと生ビデオ復号化データセットの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T15:05:33Z) - IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation [136.5813547244979]
高品質な人中心型ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。
我々のIDOLは2つの新しい設計で構成されている。第一に、デュアルモーダル生成を可能にし、ビデオと深度生成の間の情報交換を最大化する。
次に,映像と深度特徴運動場との整合性を実現する動きの整合性損失を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:36:54Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Refined Semantic Enhancement towards Frequency Diffusion for Video
Captioning [29.617527535279574]
ビデオキャプションは、与えられたビデオを正確に記述した自然言語文を生成することを目的としている。
既存の方法では、エンコードフェーズにおけるよりリッチな視覚表現を探索したり、復号能力を向上させることで、良好な生成が得られる。
頻繁なトークンの言語表現を常に知覚するキャプションモデルであるRSFD(Refined Semantic enhancement Method)を導入する。
論文 参考訳(メタデータ) (2022-11-28T05:45:17Z) - Learning Task-Oriented Flows to Mutually Guide Feature Alignment in
Synthesized and Real Video Denoising [137.5080784570804]
Video Denoisingは、クリーンなノイズを回復するためにビデオからノイズを取り除くことを目的としている。
既存の研究によっては、近辺のフレームから追加の空間的時間的手がかりを利用することで、光学的流れがノイズ発生の助けとなることが示されている。
本稿では,様々なノイズレベルに対してより堅牢なマルチスケール光フロー誘導型ビデオデノイング法を提案する。
論文 参考訳(メタデータ) (2022-08-25T00:09:18Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Fully Unsupervised Diversity Denoising with Convolutional Variational
Autoencoders [81.30960319178725]
完全畳み込み変分オートエンコーダ(VAE)に基づく復調手法であるDivNoisingを提案する。
まず, 撮像ノイズモデルをデコーダに明示的に組み込むことにより, 教師なしの雑音発生問題をVAEフレームワーク内に定式化する手法を提案する。
このようなノイズモデルは、ノイズの多いデータから測定したり、ブートストラップしたり、トレーニング中に共同学習したりすることが可能である。
論文 参考訳(メタデータ) (2020-06-10T21:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。