論文の概要: Hierarchical Feature Alignment for Gloss-Free Sign Language Translation
- arxiv url: http://arxiv.org/abs/2507.06732v1
- Date: Wed, 09 Jul 2025 10:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.552897
- Title: Hierarchical Feature Alignment for Gloss-Free Sign Language Translation
- Title(参考訳): グロスフリー手話翻訳のための階層的特徴アライメント
- Authors: Sobhan Asasi, Mohamed Ilyes Lakhal, Richard Bowden,
- Abstract要約: 手話翻訳は手話動画を音声文に変換する。
既存の手法は、エンドツーエンドの学習において、視覚的表現とテキスト的表現の相違に苦慮する。
我々は,手話の構造に触発された新しい階層的事前学習戦略を導入し,擬似グルースと対照的なビデオ言語アライメントを取り入れた。
- 参考スコア(独自算出の注目度): 29.544715933336715
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign Language Translation (SLT) attempts to convert sign language videos into spoken sentences. However, many existing methods struggle with the disparity between visual and textual representations during end-to-end learning. Gloss-based approaches help to bridge this gap by leveraging structured linguistic information. While, gloss-free methods offer greater flexibility and remove the burden of annotation, they require effective alignment strategies. Recent advances in Large Language Models (LLMs) have enabled gloss-free SLT by generating text-like representations from sign videos. In this work, we introduce a novel hierarchical pre-training strategy inspired by the structure of sign language, incorporating pseudo-glosses and contrastive video-language alignment. Our method hierarchically extracts features at frame, segment, and video levels, aligning them with pseudo-glosses and the spoken sentence to enhance translation quality. Experiments demonstrate that our approach improves BLEU-4 and ROUGE scores while maintaining efficiency.
- Abstract(参考訳): 手話翻訳(SLT)は手話動画を音声文に変換する試みである。
しかし、既存の多くの手法は、エンドツーエンドの学習において、視覚的表現とテキスト的表現の相違に苦慮している。
グロスに基づくアプローチは、構造化された言語情報を活用することで、このギャップを埋めるのに役立つ。
グロスフリーな手法はより柔軟性を提供し、アノテーションの負担を軽減しますが、効果的なアライメント戦略が必要です。
近年のLLM(Large Language Models)は,手話ビデオからテキストライクな表現を生成することで,光沢のないSLTを実現している。
本研究では,手話の構造に触発された新しい階層的事前学習戦略を導入し,擬似グルースと対照的なビデオ言語アライメントを取り入れた。
提案手法は, フレーム, セグメント, ビデオレベルの特徴を階層的に抽出し, 擬似グルースと音声文とを一致させて翻訳品質を向上させる。
提案手法は効率を保ちながらBLEU-4とROUGEのスコアを向上することを示した。
関連論文リスト
- Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:19:55Z) - An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs [7.630967411418269]
グロスフリー手話翻訳(英: Gloss-free Sign Language Translation, SLT)は、手話の動画を直接言語文に変換する言語である。
本稿では手話に固有の空間的構成や動きのダイナミクスを捉えることの重要性を強調する。
本稿では,空間と運動に基づく手話翻訳(SpaMo)について紹介する。
論文 参考訳(メタデータ) (2024-08-20T07:10:40Z) - Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing [21.183453511034767]
本稿では,事前学習された大言語モデル(LLM),データ拡張,ラベルの平滑化損失関数を活用することで,いくつかの進歩を提案する。
提案手法は,Em Gloss2Text翻訳における最先端性能を上回る。
論文 参考訳(メタデータ) (2024-07-01T15:46:45Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - GL-RG: Global-Local Representation Granularity for Video Captioning [52.56883051799501]
ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。
GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2022-05-22T02:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。