論文の概要: RVLF: A Reinforcing Vision-Language Framework for Gloss-Free Sign Language Translation
- arxiv url: http://arxiv.org/abs/2512.07273v1
- Date: Mon, 08 Dec 2025 08:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.777488
- Title: RVLF: A Reinforcing Vision-Language Framework for Gloss-Free Sign Language Translation
- Title(参考訳): RVLF: グロスフリー手話翻訳のための視覚言語フレームワーク
- Authors: Zhi Rao, Yucheng Zhou, Benjia Zhou, Yiqing Huang, Sergio Escalera, Jun Wan,
- Abstract要約: 我々は手話に特化して設計された大規模視覚言語モデル(LVLM)を構築した。
手話の十分な表現のために、RVLFは効果的な意味表現学習機構を導入する。
そして,文レベルの意味的ミスアライメントを改善するために,GRPOに基づく最適化戦略を導入する。
- 参考スコア(独自算出の注目度): 44.39679803351263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gloss-free sign language translation (SLT) is hindered by two key challenges: **inadequate sign representation** that fails to capture nuanced visual cues, and **sentence-level semantic misalignment** in current LLM-based methods, which limits translation quality. To address these issues, we propose a three-stage **r**einforcing **v**ision-**l**anguage **f**ramework (**RVLF**). We build a large vision-language model (LVLM) specifically designed for sign language, and then combine it with reinforcement learning (RL) to adaptively enhance translation performance. First, for a sufficient representation of sign language, RVLF introduces an effective semantic representation learning mechanism that fuses skeleton-based motion cues with semantically rich visual features extracted via DINOv2, followed by instruction tuning to obtain a strong SLT-SFT baseline. Then, to improve sentence-level semantic misalignment, we introduce a GRPO-based optimization strategy that fine-tunes the SLT-SFT model with a reward function combining translation fidelity (BLEU) and sentence completeness (ROUGE), yielding the optimized model termed SLT-GRPO. Our conceptually simple framework yields substantial gains under the gloss-free SLT setting without pre-training on any external large-scale sign language datasets, improving BLEU-4 scores by +5.1, +1.11, +1.4, and +1.61 on the CSL-Daily, PHOENIX-2014T, How2Sign, and OpenASL datasets, respectively. To the best of our knowledge, this is the first work to incorporate GRPO into SLT. Extensive experiments and ablation studies validate the effectiveness of GRPO-based optimization in enhancing both translation quality and semantic consistency.
- Abstract(参考訳): Gloss-free sign language translation (SLT)は、2つの主要な課題によって妨げられている。
これらの問題に対処するため、我々は三段階の**r*einforcecing **v**ision-**l**anguage **f**ramework (**RVLF**)を提案する。
我々は手話に特化した大規模視覚言語モデル(LVLM)を構築し、それを強化学習(RL)と組み合わせて翻訳性能を適応的に向上させる。
まず、手話の十分な表現のために、RVLFは、DINOv2を介して抽出された意味的にリッチな視覚的特徴と骨格に基づく動きキューを融合する効果的な意味表現学習機構を導入し、続いて命令チューニングを行い、強力なSLT-SFTベースラインを得る。
そこで,文レベルのセマンティック・アライメントを改善するため,SLT-SFTモデルと文完全性(ROUGE)を組み合わせた報酬関数を微調整し,SLT-GRPOと呼ばれる最適化モデルを生成するGRPOベースの最適化手法を提案する。
概念的に単純なフレームワークでは、外部の大規模手話データセットを事前学習することなく、Gloss-free SLT設定でかなりのゲインを得ることができ、CSL-Daily, PHOENIX-2014T, How2Sign, OpenASLデータセット上で、BLEU-4スコアを+5.1, +1.11, +1.4, +1.61に改善する。
私たちの知る限りでは、GRPOをSLTに組み込んだ最初の作業です。
大規模な実験とアブレーション研究により、GRPOに基づく翻訳品質と意味的一貫性の両面での最適化の有効性が検証された。
関連論文リスト
- Uni-Sign: Toward Unified Sign Language Understanding at Scale [90.76641997060513]
本稿では,事前学習と下流SLUタスクのギャップを解消する統合事前学習フレームワークを提案する。
Uni-Signは、複数の下流SLUタスクにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-25T11:51:23Z) - LLaVA-SLT: Visual Language Tuning for Sign Language Translation [42.20090162339927]
近年の手話翻訳(SLT)の進歩は将来性を示しているが、精度の面ではグロスベースのアプローチに大きく遅れていることが多い。
我々はLLaVA-SLTというLarge Multimodal Model (LMM) フレームワークを紹介した。
LLaVA-SLTは最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-21T08:01:08Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - DiffSLT: Enhancing Diversity in Sign Language Translation via Diffusion Model [9.452839238264286]
そこで我々は,Gloss-free手話翻訳フレームワークであるDiffSLTを提案する。
DiffSLTは、入力ビデオの視覚的特徴に基づいてランダムノイズをターゲット潜在表現に変換する。
DiffSLT-Pは擬似グルースによる視覚的特徴の条件を定め、重要なテキストガイダンスを提供し、モダリティのギャップを減らし、DiffSLT-Pを導入している。
論文 参考訳(メタデータ) (2024-11-26T09:26:36Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation [28.648494997132925]
グロースフリー手話翻訳(SLT)のための大規模言語モデル(FLa-LLM)を用いた因子学習を提案する。
視覚初期化段階では、視覚エンコーダの後に軽量翻訳モデルを用いて、視覚エンコーダを事前訓練する。
LLMの微調整段階では、視覚エンコーダの取得した知識を凍結し、学習済みのLLMと統合し、LLMの翻訳電位を刺激する。
論文 参考訳(メタデータ) (2024-03-19T09:00:23Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。