論文の概要: SSL-SSAW: Self-Supervised Learning with Sigmoid Self-Attention Weighting for Question-Based Sign Language Translation
- arxiv url: http://arxiv.org/abs/2509.14036v1
- Date: Wed, 17 Sep 2025 14:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.883663
- Title: SSL-SSAW: Self-Supervised Learning with Sigmoid Self-Attention Weighting for Question-Based Sign Language Translation
- Title(参考訳): SSL-SSAW:疑問に基づく手話翻訳のためのSigmoid Self-Attention Weightingを用いた自己教師付き学習
- Authors: Zekang Liu, Wei Feng, Fanhua Shang, Lianyu Hu, Jichao Feng, Liqing Gao,
- Abstract要約: 本稿では,対話の効率的な統合を探求する新しい課題である質問ベース手話翻訳(QB-SLT)を提案する。
本稿では,手話翻訳のためのSigmoid Self-attention Weighting (SSL-SSAW) 融合法を提案する。
SSL-SSAWがSOTA性能を達成したCSL-Daily-QAとPHOENIX-2014T-QAデータセットについて検討を行った。
- 参考スコア(独自算出の注目度): 24.796833811673945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Language Translation (SLT) bridges the communication gap between deaf people and hearing people, where dialogue provides crucial contextual cues to aid in translation. Building on this foundational concept, this paper proposes Question-based Sign Language Translation (QB-SLT), a novel task that explores the efficient integration of dialogue. Unlike gloss (sign language transcription) annotations, dialogue naturally occurs in communication and is easier to annotate. The key challenge lies in aligning multimodality features while leveraging the context of the question to improve translation. To address this issue, we propose a cross-modality Self-supervised Learning with Sigmoid Self-attention Weighting (SSL-SSAW) fusion method for sign language translation. Specifically, we employ contrastive learning to align multimodality features in QB-SLT, then introduce a Sigmoid Self-attention Weighting (SSAW) module for adaptive feature extraction from question and sign language sequences. Additionally, we leverage available question text through self-supervised learning to enhance representation and translation capabilities. We evaluated our approach on newly constructed CSL-Daily-QA and PHOENIX-2014T-QA datasets, where SSL-SSAW achieved SOTA performance. Notably, easily accessible question assistance can achieve or even surpass the performance of gloss assistance. Furthermore, visualization results demonstrate the effectiveness of incorporating dialogue in improving translation quality.
- Abstract(参考訳): 手話翻訳(SLT)は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋める。
この基礎概念に基づいて,対話の効率的な統合を探求する新しい課題である質問ベース手話翻訳(QB-SLT)を提案する。
グロス(手話書き起こし)アノテーションとは異なり、対話は自然にコミュニケーションで発生し、注釈付けが容易である。
重要な課題は、翻訳を改善するために質問のコンテキストを活用しながら、マルチモダリティ機能を整列させることである。
この問題に対処するため,手話翻訳のためのSigmoid Self-Atention Weighting (SSL-SSAW) 融合法を提案する。
具体的には、QB-SLTにおけるマルチモーダル特徴の整合化にコントラスト学習を採用し、質問や手話列からの適応的特徴抽出のためのSSAW(Sigmoid Self-attention Weighting)モジュールを導入する。
さらに、自己教師付き学習を通じて利用可能な質問文を活用し、表現能力と翻訳能力を向上する。
CSL-Daily-QA と PHOENIX-2014T-QA を新たに構築し,SSL-SSAW による SOTA の性能評価を行った。
特に、容易にアクセス可能な質問支援は、光沢アシストの性能を達成または超えることができる。
さらに, 可視化の結果から, 翻訳品質の向上にダイアログを組み込むことの有効性が示された。
関連論文リスト
- Towards Inclusive Communication: A Unified LLM-Based Framework for Sign Language, Lip Movements, and Audio Understanding [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - SparQLe: Speech Queries to Text Translation Through LLMs [0.8901073744693314]
そこで本研究では,自己教師型音声表現と命令調整型LLMを併用して音声からテキストへの翻訳を行う手法を提案する。
実験により,本手法は入力音声の意味的内容を効果的に保存し,自己教師型音声モデルと命令調整型LLMの効果的なブリッジとして機能することが示された。
論文 参考訳(メタデータ) (2025-02-13T12:57:15Z) - Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。
署名ビデオと追加のコンテキストキューを組み込む。
文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-01-16T18:59:03Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Keypoint based Sign Language Translation without Glosses [7.240731862549344]
署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。
身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。
本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
論文 参考訳(メタデータ) (2022-04-22T05:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。