論文の概要: Beyond Gloss: A Hand-Centric Framework for Gloss-Free Sign Language Translation
- arxiv url: http://arxiv.org/abs/2507.23575v1
- Date: Thu, 31 Jul 2025 14:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.910684
- Title: Beyond Gloss: A Hand-Centric Framework for Gloss-Free Sign Language Translation
- Title(参考訳): Beyond Gloss: グロスフリー手話翻訳のための手話フレームワーク
- Authors: Sobhan Asasi, Mohamed Ilyas Lakhal, Ozge Mercanoglu Sincan, Richard Bowden,
- Abstract要約: 手話翻訳(SLT)は、視覚情報と言語情報の間のモダリティギャップを埋めることを必要とする課題である。
我々は,ビデオLLMの時間認識推論機能を活用する新しいGloss-free SLTフレームワークであるtextbfBeyondGlossを紹介する。
BeyondtextはPhoenixT14とCSL-Dailyベンチマークで最先端のパフォーマンスを実現し、提案したフレームワークの有効性を実証している。
- 参考スコア(独自算出の注目度): 27.269988311306374
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign Language Translation (SLT) is a challenging task that requires bridging the modality gap between visual and linguistic information while capturing subtle variations in hand shapes and movements. To address these challenges, we introduce \textbf{BeyondGloss}, a novel gloss-free SLT framework that leverages the spatio-temporal reasoning capabilities of Video Large Language Models (VideoLLMs). Since existing VideoLLMs struggle to model long videos in detail, we propose a novel approach to generate fine-grained, temporally-aware textual descriptions of hand motion. A contrastive alignment module aligns these descriptions with video features during pre-training, encouraging the model to focus on hand-centric temporal dynamics and distinguish signs more effectively. To further enrich hand-specific representations, we distill fine-grained features from HaMeR. Additionally, we apply a contrastive loss between sign video representations and target language embeddings to reduce the modality gap in pre-training. \textbf{BeyondGloss} achieves state-of-the-art performance on the Phoenix14T and CSL-Daily benchmarks, demonstrating the effectiveness of the proposed framework. We will release the code upon acceptance of the paper.
- Abstract(参考訳): 手話翻訳(SLT)は、手形や動きの微妙な変化を捉えながら、視覚情報と言語情報の間のモダリティギャップを埋めることを必要とする課題である。
これらの課題に対処するために,ビデオ大言語モデル(VideoLLMs)の時空間的推論機能を活用する新しいGloss-free SLTフレームワークであるtextbf{BeyondGloss}を紹介する。
既存のビデオLLMは、長大な動画のモデル化に苦慮しているため、手の動きの微粒で時間的に認識されたテキスト記述を生成する新しい手法を提案する。
対照的なアライメントモジュールは、これらの記述を事前トレーニング中にビデオの特徴と整合させ、手中心の時間的ダイナミクスに集中し、より効果的に記号を区別するようにモデルに促す。
そこで我々は,HaMeRから細粒度の特徴を抽出する。
さらに,手話表現と対象言語埋め込みの対比的損失を適用し,事前学習におけるモダリティギャップを低減する。
\textbf{BeyondGloss} は Phoenix14T と CSL-Daily のベンチマークで最先端のパフォーマンスを実現し、提案したフレームワークの有効性を実証している。
私たちはその書類を受理してコードを公表する。
関連論文リスト
- Hierarchical Feature Alignment for Gloss-Free Sign Language Translation [29.544715933336715]
手話翻訳は手話動画を音声文に変換する。
既存の手法は、エンドツーエンドの学習において、視覚的表現とテキスト的表現の相違に苦慮する。
我々は,手話の構造に触発された新しい階層的事前学習戦略を導入し,擬似グルースと対照的なビデオ言語アライメントを取り入れた。
論文 参考訳(メタデータ) (2025-07-09T10:45:50Z) - Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。