論文の概要: Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation
- arxiv url: http://arxiv.org/abs/2505.15438v1
- Date: Wed, 21 May 2025 12:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.62841
- Title: Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation
- Title(参考訳): 署名と音声言語をブリッジする:手話翻訳のための擬グロス生成
- Authors: Jianyuan Guo, Peike Li, Trevor Cohn,
- Abstract要約: 手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.20483623444857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Translation (SLT) aims to map sign language videos to spoken language text. A common approach relies on gloss annotations as an intermediate representation, decomposing SLT into two sub-tasks: video-to-gloss recognition and gloss-to-text translation. While effective, this paradigm depends on expert-annotated gloss labels, which are costly and rarely available in existing datasets, limiting its scalability. To address this challenge, we propose a gloss-free pseudo gloss generation framework that eliminates the need for human-annotated glosses while preserving the structured intermediate representation. Specifically, we prompt a Large Language Model (LLM) with a few example text-gloss pairs using in-context learning to produce draft sign glosses from spoken language text. To enhance the correspondence between LLM-generated pseudo glosses and the sign sequences in video, we correct the ordering in the pseudo glosses for better alignment via a weakly supervised learning process. This reordering facilitates the incorporation of auxiliary alignment objectives, and allows for the use of efficient supervision via a Connectionist Temporal Classification (CTC) loss. We train our SLT mode, which consists of a vision encoder and a translator, through a three-stage pipeline, which progressively narrows the modality gap between sign language and spoken language. Despite its simplicity, our approach outperforms previous state-of-the-art gloss-free frameworks on two SLT benchmarks and achieves competitive results compared to gloss-based methods.
- Abstract(参考訳): 手話翻訳(SLT)は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、グロスアノテーションを中間表現として依存し、SLTをビデオからグロス認識とグロスからテキストへの変換という2つのサブタスクに分解する。
有効ではあるが、このパラダイムは専門家が注釈付けしたグロスラベルに依存しており、既存のデータセットで費用がかかり、ほとんど利用できないため、スケーラビリティが制限されている。
この課題に対処するために、構造化中間表現を保ちながら、人間の注釈付きグルースを必要としない光沢のない擬似グルース生成フレームワークを提案する。
具体的には,言語内学習を用いたテキスト・グロスペアの例を用いて,Large Language Model (LLM) を誘導し,音声テキストから手話手話を生成する。
LLM生成した擬似グルースとビデオ中の符号列との対応性を高めるため、弱教師付き学習プロセスにより、擬似グルースの順序を補正してアライメントを改善する。
このリオーダーにより、補助的なアライメント目的の組み入れが容易になり、コネクショニスト時間分類(CTC)の損失による効率的な監視が可能になった。
我々は、視覚エンコーダとトランスレータからなるSLTモードを3段階パイプラインで訓練し、手話と音声言語の間のモダリティギャップを徐々に狭めている。
その単純さにもかかわらず、2つのSLTベンチマークにおいて、従来の最先端のGlossフリーフレームワークよりも優れており、Glossベースの手法と比較して競合的な結果が得られる。
関連論文リスト
- LLaVA-SLT: Visual Language Tuning for Sign Language Translation [42.20090162339927]
近年の手話翻訳(SLT)の進歩は将来性を示しているが、精度の面ではグロスベースのアプローチに大きく遅れていることが多い。
我々はLLaVA-SLTというLarge Multimodal Model (LMM) フレームワークを紹介した。
LLaVA-SLTは最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-21T08:01:08Z) - A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production [9.065171626657818]
本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。
テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。
キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
論文 参考訳(メタデータ) (2024-07-03T07:12:36Z) - Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Gloss-Free End-to-End Sign Language Translation [59.28829048788345]
我々はGloFE(Gloss-Free End-to-end手話翻訳フレームワーク)を設計する。
本手法は,信号の共通意味と対応する音声翻訳を利用して,光沢のない環境下でのSLTの性能を向上させる。
OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-05-22T09:57:43Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。