Fugu-MT 論文翻訳(概要): Denoising-Contrastive Alignment for Continuous Sign Language Recognition

論文の概要: Denoising-Contrastive Alignment for Continuous Sign Language Recognition

arxiv url: http://arxiv.org/abs/2305.03614v5
Date: Sun, 01 Dec 2024 12:06:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.273695
Title: Denoising-Contrastive Alignment for Continuous Sign Language Recognition
Title（参考訳）: 連続手話認識のためのデノジング・コントラストアライメント
Authors: Leming Guo, Wanli Xue, Shengyong Chen,
Abstract要約: 連続手話認識は,手話ビデオからテキストグルースへの符号認識を目的としている。現在のクロスモダリティアライメントパラダイムは、ビデオ表現を導くためにテキスト文法の役割を無視することが多い。本稿では,映像の表現性を高めるために,Denoising-Contrastive Alignmentパラダイムを提案する。
参考スコア（独自算出の注目度）: 22.800767994061175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continuous sign language recognition (CSLR) aims to recognize signs in untrimmed sign language videos to textual glosses. A key challenge of CSLR is achieving effective cross-modality alignment between video and gloss sequences to enhance video representation. However, current cross-modality alignment paradigms often neglect the role of textual grammar to guide the video representation in learning global temporal context, which adversely affects recognition performance. To tackle this limitation, we propose a Denoising-Contrastive Alignment (DCA) paradigm. DCA creatively leverages textual grammar to enhance video representations through two complementary approaches: modeling the instance correspondence between signs and glosses from a discrimination perspective and aligning their global context from a generative perspective. Specifically, DCA accomplishes flexible instance-level correspondence between signs and glosses using a contrastive loss. Building on this, DCA models global context alignment between the video and gloss sequences by denoising the gloss representation from noise, guided by video representation. Additionally, DCA introduces gradient modulation to optimize the alignment and recognition gradients, ensuring a more effective learning process. By integrating gloss-wise and global context knowledge, DCA significantly enhances video representations for CSLR tasks. Experimental results across public benchmarks validate the effectiveness of DCA and confirm its video representation enhancement feasibility.
Abstract（参考訳）: 連続手話認識 (continuous sign language recognition, CSLR) は、手話ビデオからテキストグルースへの符号認識を目的としている。 CSLRの重要な課題は、ビデオ表現を強化するために、ビデオシーケンスとグロスシーケンスの効果的な相互モダリティアライメントを実現することである。しかしながら、現在の相互モダリティアライメントパラダイムは、認識性能に悪影響を及ぼすグローバルな時間的文脈の学習において、ビデオ表現を導くために、テキスト文法の役割を無視することが多い。この制限に対処するため,我々はDCA(Denoising-Contrastive Alignment)パラダイムを提案する。 DCAはテキスト文法を創造的に活用し、2つの相補的なアプローチを通してビデオ表現を強化する。具体的には、DCAは対照的な損失を用いて、符号とグルースの間の柔軟なインスタンスレベルの対応を達成する。これに基づいて、DCAは、映像と光沢シーケンスのグローバルなコンテキストアライメントを、映像表現によって導かれるノイズから光沢表現を識別することによってモデル化する。さらに、DCAは、アライメントと認識勾配を最適化するために勾配変調を導入し、より効果的な学習プロセスを確実にする。 DCAは、光沢な知識とグローバルなコンテキスト知識を統合することにより、CSLRタスクの映像表現を大幅に強化する。公開ベンチマークによる実験結果から, DCAの有効性を検証し, 映像表現向上の実現可能性を確認した。

関連論文リスト

GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。 DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。 MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文参考訳（メタデータ） (2025-08-03T10:44:24Z)
Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
Hierarchical Feature Alignment for Gloss-Free Sign Language Translation [29.544715933336715]
手話翻訳は手話動画を音声文に変換する。既存の手法は、エンドツーエンドの学習において、視覚的表現とテキスト的表現の相違に苦慮する。我々は,手話の構造に触発された新しい階層的事前学習戦略を導入し,擬似グルースと対照的なビデオ言語アライメントを取り入れた。
論文参考訳（メタデータ） (2025-07-09T10:45:50Z)
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文参考訳（メタデータ） (2025-05-02T12:59:58Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Temporal As a Plugin: Unsupervised Video Denoising with Pre-Trained Image Denoisers [30.965705043127144]
本稿では,TAP (Temporal As aTAP) という,教師なしのビデオデノベーションフレームワークを提案する。時間的加群を組み込むことで、ノイズの多いフレームをまたがる時間的情報を活用することができ、空間的 denoising のパワーを補完することができる。他の教師なしビデオ復号化手法と比較して,本フレームワークは,SRGBと生ビデオ復号化データセットの両方において優れた性能を示す。
論文参考訳（メタデータ） (2024-09-17T15:05:33Z)
IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation [136.5813547244979]
高品質な人中心型ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。我々のIDOLは2つの新しい設計で構成されている。第一に、デュアルモーダル生成を可能にし、ビデオと深度生成の間の情報交換を最大化する。次に,映像と深度特徴運動場との整合性を実現する動きの整合性損失を提案する。
論文参考訳（メタデータ） (2024-07-15T17:36:54Z)
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-03-14T13:52:03Z)
SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。従来の方法と比較して最先端の結果が得られます。
論文参考訳（メタデータ） (2024-01-22T11:04:55Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。 DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。 CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文参考訳（メタデータ） (2023-03-17T04:20:47Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment [42.10603331311837]
手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。視覚と言語の両方のモダリティの事前訓練された知識を十分に探求するために,SLR,-SLRのための新しいコントラッシブ・ビジュアル・トランスフォーメーションを提案する。
論文参考訳（メタデータ） (2023-03-10T06:12:36Z)
Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning [29.617527535279574]
ビデオキャプションは、与えられたビデオを正確に記述した自然言語文を生成することを目的としている。既存の方法では、エンコードフェーズにおけるよりリッチな視覚表現を探索したり、復号能力を向上させることで、良好な生成が得られる。頻繁なトークンの言語表現を常に知覚するキャプションモデルであるRSFD(Refined Semantic enhancement Method)を導入する。
論文参考訳（メタデータ） (2022-11-28T05:45:17Z)
Learning Task-Oriented Flows to Mutually Guide Feature Alignment in Synthesized and Real Video Denoising [137.5080784570804]
Video Denoisingは、クリーンなノイズを回復するためにビデオからノイズを取り除くことを目的としている。既存の研究によっては、近辺のフレームから追加の空間的時間的手がかりを利用することで、光学的流れがノイズ発生の助けとなることが示されている。本稿では,様々なノイズレベルに対してより堅牢なマルチスケール光フロー誘導型ビデオデノイング法を提案する。
論文参考訳（メタデータ） (2022-08-25T00:09:18Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。 VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文参考訳（メタデータ） (2021-10-16T14:08:20Z)
Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文参考訳（メタデータ） (2021-05-29T09:26:02Z)
Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文参考訳（メタデータ） (2020-12-09T14:05:06Z)
Fully Unsupervised Diversity Denoising with Convolutional Variational Autoencoders [81.30960319178725]
完全畳み込み変分オートエンコーダ(VAE)に基づく復調手法であるDivNoisingを提案する。まず, 撮像ノイズモデルをデコーダに明示的に組み込むことにより, 教師なしの雑音発生問題をVAEフレームワーク内に定式化する手法を提案する。このようなノイズモデルは、ノイズの多いデータから測定したり、ブートストラップしたり、トレーニング中に共同学習したりすることが可能である。
論文参考訳（メタデータ） (2020-06-10T21:28:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。