論文の概要: Conditional Variational Autoencoder for Sign Language Translation with
Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2312.15645v1
- Date: Mon, 25 Dec 2023 08:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:20:23.346742
- Title: Conditional Variational Autoencoder for Sign Language Translation with
Cross-Modal Alignment
- Title(参考訳): クロスモーダルアライメントを用いた手話翻訳のための条件変分オートエンコーダ
- Authors: Rui Zhao, Liang Zhang, Biao Fu, Cong Hu, Jinsong Su, Yidong Chen
- Abstract要約: 手話翻訳(SLT)は、連続手話動画をテキストに変換することを目的としている。
SLT(CV-SLT)のための条件変分オートエンコーダに基づく新しいフレームワークを提案する。
CV-SLTは、エンコーダとデコーダの出力を正規化するために、2つのKullback-Leiblerの分岐を持つ2つの経路からなる。
- 参考スコア(独自算出の注目度): 33.96363443363547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language translation (SLT) aims to convert continuous sign language
videos into textual sentences. As a typical multi-modal task, there exists an
inherent modality gap between sign language videos and spoken language text,
which makes the cross-modal alignment between visual and textual modalities
crucial. However, previous studies tend to rely on an intermediate sign gloss
representation to help alleviate the cross-modal problem thereby neglecting the
alignment across modalities that may lead to compromised results. To address
this issue, we propose a novel framework based on Conditional Variational
autoencoder for SLT (CV-SLT) that facilitates direct and sufficient cross-modal
alignment between sign language videos and spoken language text. Specifically,
our CV-SLT consists of two paths with two Kullback-Leibler (KL) divergences to
regularize the outputs of the encoder and decoder, respectively. In the prior
path, the model solely relies on visual information to predict the target text;
whereas in the posterior path, it simultaneously encodes visual information and
textual knowledge to reconstruct the target text. The first KL divergence
optimizes the conditional variational autoencoder and regularizes the encoder
outputs, while the second KL divergence performs a self-distillation from the
posterior path to the prior path, ensuring the consistency of decoder outputs.
We further enhance the integration of textual information to the posterior path
by employing a shared Attention Residual Gaussian Distribution (ARGD), which
considers the textual information in the posterior path as a residual component
relative to the prior path. Extensive experiments conducted on public datasets
(PHOENIX14T and CSL-daily) demonstrate the effectiveness of our framework,
achieving new state-of-the-art results while significantly alleviating the
cross-modal representation discrepancy.
- Abstract(参考訳): 手話翻訳(SLT)は、連続手話動画をテキストに変換することを目的としている。
典型的なマルチモーダルタスクとして、手話ビデオと話し言葉テキストの間に固有のモダリティギャップがあり、視覚とテキストのモダリティ間のクロスモーダルアライメントが重要である。
しかし、以前の研究では、クロスモーダル問題を緩和するために中間符号の光沢表現に依存する傾向があり、その結果が損なわれる可能性のあるモダリティ間のアライメントを無視している。
本稿では,手話映像と音声テキストの直接的かつ十分なクロスモーダルアライメントを容易にするslt(cv-slt)のための条件付き変分オートエンコーダに基づく新しい枠組みを提案する。
具体的には、CV-SLTは、2つのKullback-Leibler(KL)分岐を持つ2つの経路から構成され、それぞれエンコーダとデコーダの出力を正規化する。
先行経路では、モデルは対象テキストを予測するために視覚情報のみに依存するが、後経路では、対象テキストを再構築するために視覚情報とテキスト知識を同時にエンコードする。
第1のKL発散は条件付き変分オートエンコーダを最適化し、エンコーダ出力を正規化し、第2のKL発散は後進経路から前進経路への自己蒸留を行い、デコーダ出力の整合性を確保する。
本稿では, 後進経路におけるテキスト情報を, 後進経路に対する残留成分とみなす共有注意残留ガウス分布(ARGD)を用いて, 後進経路へのテキスト情報の統合をさらに強化する。
公開データセット(phoenix14tおよびcsl-daily)で行った広範囲な実験により、このフレームワークの有効性が実証され、新たな最先端結果が得られた。
関連論文リスト
- Unsupervised Sign Language Translation and Generation [72.01216288379072]
教師なし手話翻訳・生成ネットワーク(USLNet)を導入する。
USLNetは、並列手話データなしで、豊富な単一モダリティ(テキストとビデオ)データから学習する。
可変長テキストとビデオシーケンスの整合性の問題に対処するスライディングウインドウ手法を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:39:05Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language
Recognition with Variational Alignment [42.10603331311837]
手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。
近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。
視覚と言語の両方のモダリティの事前訓練された知識を十分に探求するために,SLR,-SLRのための新しいコントラッシブ・ビジュアル・トランスフォーメーションを提案する。
論文 参考訳(メタデータ) (2023-03-10T06:12:36Z) - Levenshtein OCR [20.48454415635795]
VLT(Vision-Language Transformer)に基づく新しいシーンテキスト認識器を提案する。
提案手法は,NLP領域のLevenshtein Transformerに触発されて,自然画像からテキストを自動的に書き起こす方法を提案する。
論文 参考訳(メタデータ) (2022-09-08T06:46:50Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Cross Modification Attention Based Deliberation Model for Image
Captioning [11.897899189552318]
画像キャプションのためのユニバーサル2パスデコードフレームワークを提案する。
シングルパス復号モデルが最初に入力画像に応じてドラフトキャプションを生成する。
次に、検討モデルが研磨処理を行い、ドラフトキャプションを洗練して画像記述を改善する。
論文 参考訳(メタデータ) (2021-09-17T08:38:08Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。