論文の概要: HATL: Hierarchical Adaptive-Transfer Learning Framework for Sign Language Machine Translation
- arxiv url: http://arxiv.org/abs/2603.19260v1
- Date: Thu, 26 Feb 2026 17:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.797379
- Title: HATL: Hierarchical Adaptive-Transfer Learning Framework for Sign Language Machine Translation
- Title(参考訳): HATL:手話機械翻訳のための階層型適応トランスファー学習フレームワーク
- Authors: Nada Shahin, Leila Ismail,
- Abstract要約: 手話機械翻訳は、聴覚障害者と聴覚障害者のコミュニケーションを橋渡しすることを目的としている。
SLMTの既存の移動学習アプローチは静的であり、しばしば過度に適合する。
本稿では,階層型適応移動学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sign Language Machine Translation (SLMT) aims to bridge communication between Deaf and hearing individuals. However, its progress is constrained by scarce datasets, limited signer diversity, and large domain gaps between sign motion patterns and pretrained representations. Existing transfer learning approaches in SLMT are static and often lead to overfitting. These challenges call for the development of an adaptive framework that preserves pretrained structure while remaining robust across linguistic and signing variations. To fill this void, we propose a Hierarchical Adaptive Transfer Learning (HATL) framework, where pretrained layers are progressively and dynamically unfrozen based on training performance behavior. HATL combines dynamic unfreezing, layer-wise learning rate decay, and stability mechanisms to preserve generic representations while adapting to sign characteristics. We evaluate HATL on Sign2Text and Sign2Gloss2Text translation tasks using a pretrained ST-GCN++ backbone for feature extraction and the Transformer and an adaptive transformer (ADAT)for translation. To ensure robust multilingual generalization, we evaluate the proposed approach across three datasets: RWTH-PHOENIXWeather-2014 (PHOENIX14T), Isharah, and MedASL. Experimental results show that HATL consistently outperforms traditional transfer learning approaches across tasks and models, with ADAT achieving BLEU-4 improvements of 15.0% on PHOENIX14T and Isharah and 37.6% on MedASL.
- Abstract(参考訳): 手話機械翻訳(SLMT)は、聴覚障害者と聴覚障害者のコミュニケーションを橋渡しすることを目的としている。
しかし、その進歩は、少ないデータセット、限られたシグナ多様性、手話の動きパターンと事前訓練された表現の間の大きな領域ギャップによって制限されている。
SLMTの既存の移動学習アプローチは静的であり、しばしば過度に適合する。
これらの課題は、言語や署名のバリエーションにまたがって堅牢を維持しながら、事前訓練された構造を維持する適応的なフレームワークの開発を促す。
この空白を埋めるために,我々は階層型適応移動学習(HATL, Hierarchical Adaptive Transfer Learning)フレームワークを提案する。
HATLは、動的凍結、階層的学習率の減衰、安定性のメカニズムを組み合わせて、符号特性に適応しながら、一般的な表現を保存する。
特徴抽出用ST-GCN++バックボーンと変換用変換器および適応変換器(ADAT)を用いて,Sign2TextおよびSign2Gloss2Text翻訳タスクのHATLを評価する。
頑健な多言語一般化を実現するため,RWTH-PHOENIXWeather-2014(PHOENIX14T),Isharah,MedASLの3つのデータセットにまたがる提案手法の評価を行った。
実験結果から、HATLはタスクやモデル間で従来の移動学習手法より一貫して優れており、ADATはPHOENIX14TとIsharahでは15.0%、MedASLでは37.6%でBLEU-4の改善を実現している。
関連論文リスト
- Learning Transferable Sensor Models via Language-Informed Pretraining [4.764303199378882]
textbfSLIPは、さまざまなセンサー設定にまたがって一般化される言語対応表現を学習するためのオープンソースのフレームワークである。
SLIPはセンサ条件のキャプションとコントラストアライメントを統合し、識別的理解と生成的推論の両方を容易にする。
11データセットにわたって、SLIPはゼロショット転送、信号キャプション、質問応答において優れた性能を示す。
論文 参考訳(メタデータ) (2026-03-12T13:59:13Z) - Improving Transfer Learning for Sequence Labeling Tasks by Adapting Pre-trained Neural Language Models [0.0]
この論文は、事前訓練されたニューラルネットワークモデルを適用することにより、シーケンスラベリングタスクの転送学習を改善する。
転送学習の改善には、追加の信号を含むマルチタスクモデルの導入が含まれる。
第3の改良は、自動回帰的な大規模言語モデルをテキストジェネレータとして、生成的に教師付きインコンテキスト微調整フレームワークを通じて活用する。
論文 参考訳(メタデータ) (2025-10-22T21:23:53Z) - MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation [19.197388907510746]
自動手話翻訳の限界を克服するモジュール型フレームワークであるMultiStream-LLMを紹介する。
本手法は, BLEU-4 スコア 23.5 と 73.2% の精度を持つ How2Sign ベンチマークで, ChicagoFSWildPlus のフィンガースペルスデータセット上で, 新たな最先端性を確立した。
論文 参考訳(メタデータ) (2025-08-20T17:44:47Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - Spatio-temporal transformer to support automatic sign language translation [0.0]
本稿では,時間的動きのジェスチャーを符号化し,局所的・長距離的空間情報を保存するトランスフォーマーアーキテクチャを提案する。
提案手法はコロンビア手話翻訳データセットで検証された。
論文 参考訳(メタデータ) (2025-02-04T18:59:19Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。