論文の概要: Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing
- arxiv url: http://arxiv.org/abs/2407.01394v2
- Date: Fri, 12 Jul 2024 14:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:18:12.324147
- Title: Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing
- Title(参考訳): Gloss2Text: LLMとSemantically Aware Label Smoothingを用いた手話グロス翻訳
- Authors: Pooya Fayyazsanavi, Antonios Anastasopoulos, Jana Košecká,
- Abstract要約: 本稿では,事前学習された大言語モデル(LLM),データ拡張,ラベルの平滑化損失関数を活用することで,いくつかの進歩を提案する。
提案手法は,Em Gloss2Text翻訳における最先端性能を上回る。
- 参考スコア(独自算出の注目度): 21.183453511034767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language translation from video to spoken text presents unique challenges owing to the distinct grammar, expression nuances, and high variation of visual appearance across different speakers and contexts. The intermediate gloss annotations of videos aim to guide the translation process. In our work, we focus on {\em Gloss2Text} translation stage and propose several advances by leveraging pre-trained large language models (LLMs), data augmentation, and novel label-smoothing loss function exploiting gloss translation ambiguities improving significantly the performance of state-of-the-art approaches. Through extensive experiments and ablation studies on the PHOENIX Weather 2014T dataset, our approach surpasses state-of-the-art performance in {\em Gloss2Text} translation, indicating its efficacy in addressing sign language translation and suggesting promising avenues for future research and development.
- Abstract(参考訳): ビデオから音声テキストへの手話翻訳は、異なる文法、表現ニュアンス、異なる話者や文脈間での視覚的外観の変化により、独特な課題を呈している。
ビデオの中間的な光沢アノテーションは、翻訳プロセスのガイドを目的としている。
本研究は,既存の言語モデル(LLM),データ拡張,光沢変換の曖昧性を利用した新しいラベル平滑化損失関数を活用することで,最先端の手法の性能を大幅に向上させることにより,翻訳段階に着目し,いくつかの進歩を提案する。
PHOENIX Weather 2014Tデータセットに関する広範な実験とアブレーション研究を通じて、我々のアプローチは、手話翻訳における最先端のパフォーマンスを超越し、手話翻訳におけるその有効性を示し、将来の研究開発への道のりを示唆している。
関連論文リスト
- DiffSLT: Enhancing Diversity in Sign Language Translation via Diffusion Model [9.452839238264286]
そこで我々は,Gloss-free手話翻訳フレームワークであるDiffSLTを提案する。
DiffSLTは、入力ビデオの視覚的特徴に基づいてランダムノイズをターゲット潜在表現に変換する。
DiffSLT-Pは擬似グルースによる視覚的特徴の条件を定め、重要なテキストガイダンスを提供し、モダリティのギャップを減らし、DiffSLT-Pを導入している。
論文 参考訳(メタデータ) (2024-11-26T09:26:36Z) - American Sign Language Video to Text Translation [0.0]
テキストへの手話は、難聴者のコミュニケーション障壁を断ち切る重要な技術である。
BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。
論文 参考訳(メタデータ) (2024-02-11T17:46:33Z) - VK-G2T: Vision and Context Knowledge enhanced Gloss2Text [60.57628465740138]
既存の手話翻訳法は、2段階のパイプラインに従っており、まず手話動画をグロスシーケンス(Sign2Gloss)に変換し、次に生成されたグロスシーケンスを音声言語文(Gross2Text)に変換する。
本稿では,目標文の性質を学習するために手話ビデオの視覚的内容を活用し,文脈知識を活用して単語の適応翻訳を容易にする,視覚的・文脈的知識強化型Gloss2Textモデル VK-G2Tを提案する。
論文 参考訳(メタデータ) (2023-12-15T21:09:34Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。