論文の概要: ADAT: Time-Series-Aware Adaptive Transformer Architecture for Sign Language Translation
- arxiv url: http://arxiv.org/abs/2504.11942v1
- Date: Wed, 16 Apr 2025 10:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:55.691286
- Title: ADAT: Time-Series-Aware Adaptive Transformer Architecture for Sign Language Translation
- Title(参考訳): ADAT:手話翻訳のための時系列対応適応変換アーキテクチャ
- Authors: Nada Shahin, Leila Ismail,
- Abstract要約: 現在の手話機械翻訳システムは、手の動き、表情、姿勢を認識して記号をテキストに変換する。
特徴抽出と適応的特徴重み付けのためのコンポーネントを組み込んだ適応変換器(ADAT)を提案する。
ADATは、サイン・トゥ・テキストの精度を8.7%改善し、PHOENIX14Tのトレーニング時間を2.8%削減し、MedASLのトレーニングを4.7%向上し、7.17%高速化する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Current sign language machine translation systems rely on recognizing hand movements, facial expressions and body postures, and natural language processing, to convert signs into text. Recent approaches use Transformer architectures to model long-range dependencies via positional encoding. However, they lack accuracy in recognizing fine-grained, short-range temporal dependencies between gestures captured at high frame rates. Moreover, their high computational complexity leads to inefficient training. To mitigate these issues, we propose an Adaptive Transformer (ADAT), which incorporates components for enhanced feature extraction and adaptive feature weighting through a gating mechanism to emphasize contextually relevant features while reducing training overhead and maintaining translation accuracy. To evaluate ADAT, we introduce MedASL, the first public medical American Sign Language dataset. In sign-to-gloss-to-text experiments, ADAT outperforms the encoder-decoder transformer, improving BLEU-4 accuracy by 0.1% while reducing training time by 14.33% on PHOENIX14T and 3.24% on MedASL. In sign-to-text experiments, it improves accuracy by 8.7% and reduces training time by 2.8% on PHOENIX14T and achieves 4.7% higher accuracy and 7.17% faster training on MedASL. Compared to encoder-only and decoder-only baselines in sign-to-text, ADAT is at least 6.8% more accurate despite being up to 12.1% slower due to its dual-stream structure.
- Abstract(参考訳): 現在の手話機械翻訳システムは、手の動き、表情、身体姿勢、自然言語処理を認識して、サインをテキストに変換する。
近年のアプローチでは、Transformerアーキテクチャを使って位置符号化による長距離依存をモデル化している。
しかし、高いフレームレートでキャプチャされたジェスチャー間の微粒で短い時間的依存関係を認識するには、精度が欠如している。
さらに、その高い計算複雑性は非効率な訓練につながる。
これらの問題を緩和するために,適応変換器 (ADAT) を提案する。この装置は,学習のオーバーヘッドを減らし,翻訳精度を保ちつつ,文脈的に関係のある特徴を強調するためのゲーティング機構を通じて,特徴抽出と適応的特徴重み付けの強化のためのコンポーネントを組み込んだものである。
ADATを評価するために、最初の公開医療用アメリカ手話データセットであるMedASLを紹介する。
サイン・トゥ・グロス・トゥ・テキストの実験では、ADATはエンコーダ・デコーダ変換器より優れており、BLEU-4の精度は0.1%向上し、PHOENIX14Tでは14.33%、MedASLでは3.24%向上した。
サイン・トゥ・テキストの実験では精度が8.7%向上し、PHOENIX14Tでは2.8%向上し、MedASLでは4.7%向上し、7.17%高速化された。
エンコーダのみのベースラインとデコーダのみのベースラインと比較すると、ADATは2ストリーム構造のため最大12.1%遅いが、少なくとも6.8%は正確である。
関連論文リスト
- Spatio-temporal transformer to support automatic sign language translation [0.0]
本稿では,時間的動きのジェスチャーを符号化し,局所的・長距離的空間情報を保存するトランスフォーマーアーキテクチャを提案する。
提案手法はコロンビア手話翻訳データセットで検証された。
論文 参考訳(メタデータ) (2025-02-04T18:59:19Z) - Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models [40.69348434971122]
本稿では,パラメータ効率の高い言語モデルの微調整のための新しい適応ランクアロケーションフレームワークであるFedARAを提案する。
FedARAは、ヘテロジニアスなデータの下で、さまざまなデータセットやモデルに対して平均6.95%から8.49%のベースラインを一貫して上回っている。
各種エッジデバイスの実験では、それぞれ48.90%、46.95%のトレーニング時間とエネルギー消費が大幅に減少している。
論文 参考訳(メタデータ) (2025-01-24T11:19:07Z) - Speech-Based Depression Prediction Using Encoder-Weight-Only Transfer Learning and a Large Corpus [8.67751164637209]
音声に基づくアルゴリズムはうつ病などの行動状態の管理に関心を寄せている。
本稿では,軽量エンコーダとエンコーダ重みのみを伝達する音声に基づくトランスファー学習手法について検討する。
結果は、このアプローチは柔軟性があり、効率的な実装を約束していることを示唆している。
論文 参考訳(メタデータ) (2024-12-22T07:21:51Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Camouflage is all you need: Evaluating and Enhancing Language Model
Robustness Against Camouflage Adversarial Attacks [53.87300498478744]
自然言語処理(NLP)における敵攻撃の意義
本研究は、脆弱性評価とレジリエンス向上という2つの異なる段階において、この課題を体系的に探求する。
結果として、パフォーマンスとロバスト性の間のトレードオフが示唆され、いくつかのモデルは、ロバスト性を確保しながら、同様のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-02-15T10:58:22Z) - Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。
我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。
我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文 参考訳(メタデータ) (2023-03-19T22:15:05Z) - RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech
Translation without Quality Compromise [66.92823764664206]
我々は,任意のトランスフォーマーベース音声符号化アーキテクチャにシームレスに統合可能な,新しいReduceer AdaptorブロックRedAptを提案する。
事前訓練されたwav2vec 2音声エンコーダをRedAptbrings 41%の高速化、33%のメモリ削減、24%のFLOPを推論で削減した。
論文 参考訳(メタデータ) (2022-10-16T07:58:25Z) - How May I Help You? Using Neural Text Simplification to Improve
Downstream NLP Tasks [20.370296294233313]
我々は、予測時の入力テキストの簡素化と、トレーニング中にマシンに追加情報を提供するデータ拡張の2つの方法により、ニューラルTSの使用を評価した。
後者のシナリオは,2つの異なるデータセット上でのマシン性能に肯定的な影響を与えることを実証する。
特に後者のTSはLSTM(1.82-1.98%)とSpanBERT(0.7-1.3%)のTACREDにおける抽出性能を改善している。
論文 参考訳(メタデータ) (2021-09-10T01:04:52Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。