論文の概要: DiffSLT: Enhancing Diversity in Sign Language Translation via Diffusion Model
- arxiv url: http://arxiv.org/abs/2411.17248v1
- Date: Tue, 26 Nov 2024 09:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:00.476038
- Title: DiffSLT: Enhancing Diversity in Sign Language Translation via Diffusion Model
- Title(参考訳): DiffSLT:拡散モデルによる手話翻訳における多様性向上
- Authors: JiHwan Moon, Jihoon Park, Jungeun Kim, Jongseong Bae, Hyeongwoo Jeon, Ha Young Kim,
- Abstract要約: そこで我々は,Gloss-free手話翻訳フレームワークであるDiffSLTを提案する。
DiffSLTは、入力ビデオの視覚的特徴に基づいてランダムノイズをターゲット潜在表現に変換する。
DiffSLT-Pは擬似グルースによる視覚的特徴の条件を定め、重要なテキストガイダンスを提供し、モダリティのギャップを減らし、DiffSLT-Pを導入している。
- 参考スコア(独自算出の注目度): 9.452839238264286
- License:
- Abstract: Sign language translation (SLT) is challenging, as it involves converting sign language videos into natural language. Previous studies have prioritized accuracy over diversity. However, diversity is crucial for handling lexical and syntactic ambiguities in machine translation, suggesting it could similarly benefit SLT. In this work, we propose DiffSLT, a novel gloss-free SLT framework that leverages a diffusion model, enabling diverse translations while preserving sign language semantics. DiffSLT transforms random noise into the target latent representation, conditioned on the visual features of input video. To enhance visual conditioning, we design Guidance Fusion Module, which fully utilizes the multi-level spatiotemporal information of the visual features. We also introduce DiffSLT-P, a DiffSLT variant that conditions on pseudo-glosses and visual features, providing key textual guidance and reducing the modality gap. As a result, DiffSLT and DiffSLT-P significantly improve diversity over previous gloss-free SLT methods and achieve state-of-the-art performance on two SLT datasets, thereby markedly improving translation quality.
- Abstract(参考訳): 手話翻訳(SLT)は、手話動画を自然言語に変換するため、難しい。
これまでの研究では、多様性よりも精度が優先されていた。
しかし、機械翻訳における語彙的・構文的曖昧性を扱うためには多様性が不可欠であり、同様にSLTにも恩恵をもたらす可能性がある。
本研究では,拡散モデルを利用して手話の意味を保ちながら多種多様な翻訳を可能にする新しいGloss-free SLTフレームワークであるDiffSLTを提案する。
DiffSLTは、入力ビデオの視覚的特徴に基づいてランダムノイズをターゲット潜在表現に変換する。
視覚的条件付けを強化するため,視覚特徴の多段階時空間情報を完全に活用した誘導核融合モジュールを設計した。
DiffSLT-Pは擬似グルースや視覚的特徴を規定し、重要なテキストガイダンスを提供し、モダリティギャップを小さくするDiffSLT-Pである。
その結果、DiffSLTとDiffSLT-Pは従来のGloss-free SLT法よりも多様性を著しく向上し、2つのSLTデータセットの最先端性能を実現し、翻訳品質を著しく向上させた。
関連論文リスト
- Diverse Sign Language Translation [27.457810402402387]
本稿では,手話ビデオの多種多様かつ正確な翻訳を実現するために,DivSLT(Diverse Sign Language Translation)タスクを導入する。
我々は大規模言語モデル(LLM)を用いて、広く使われているCSL-DailyとPHOENIX14T SLTデータセットの複数の参照を生成する。
具体的には、DivSLTモデルが多様な翻訳を実現するためのマルチ参照トレーニング戦略について検討する。
論文 参考訳(メタデータ) (2024-10-25T14:28:20Z) - SignAttention: On the Interpretability of Transformer Models for Sign Language Translation [2.079808290618441]
本稿では,トランスフォーマーを用いた手話翻訳モデルの最初の包括的解釈可能性解析について述べる。
モデル内の注意機構について検討し,視覚入力を逐次グルースで処理・調整する方法について考察する。
この研究はSLTモデルのより深い理解に寄与し、より透明で信頼性の高い翻訳システムを開発するための道を開いた。
論文 参考訳(メタデータ) (2024-10-18T14:38:37Z) - Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing [21.183453511034767]
本稿では,事前学習された大言語モデル(LLM),データ拡張,ラベルの平滑化損失関数を活用することで,いくつかの進歩を提案する。
提案手法は,Em Gloss2Text翻訳における最先端性能を上回る。
論文 参考訳(メタデータ) (2024-07-01T15:46:45Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。