論文の概要: SONAR-SLT: Multilingual Sign Language Translation via Language-Agnostic Sentence Embedding Supervision
- arxiv url: http://arxiv.org/abs/2510.19398v1
- Date: Wed, 22 Oct 2025 09:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.519976
- Title: SONAR-SLT: Multilingual Sign Language Translation via Language-Agnostic Sentence Embedding Supervision
- Title(参考訳): SONAR-SLT:言語に依存しない文埋め込みによる多言語手話翻訳
- Authors: Yasser Hamidullah, Shakib Yazdani, Cennet Oguz, Josef van Genabith, Cristina España-Bonet,
- Abstract要約: 手話翻訳(SLT)は通常、単一の言語でテキストで訓練される。
我々は、SLTを監督するために、複数の言語からテキストや音声で訓練された言語に依存しないマルチモーダル埋め込みを採用している。
以上の結果から,言語非依存の埋め込み管理と統合拡張が組み合わさって,従来のSLTトレーニングに代わるスケーラブルでセマンティックな代替手段を提供することが示された。
- 参考スコア(独自算出の注目度): 14.416218321809824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language translation (SLT) is typically trained with text in a single spoken language, which limits scalability and cross-language generalization. Earlier approaches have replaced gloss supervision with text-based sentence embeddings, but up to now, these remain tied to a specific language and modality. In contrast, here we employ language-agnostic, multimodal embeddings trained on text and speech from multiple languages to supervise SLT, enabling direct multilingual translation. To address data scarcity, we propose a coupled augmentation method that combines multilingual target augmentations (i.e. translations into many languages) with video-level perturbations, improving model robustness. Experiments show consistent BLEURT gains over text-only sentence embedding supervision, with larger improvements in low-resource settings. Our results demonstrate that language-agnostic embedding supervision, combined with coupled augmentation, provides a scalable and semantically robust alternative to traditional SLT training.
- Abstract(参考訳): 手話翻訳(SLT)は通常、拡張性と言語間の一般化を制限する単一の言語でテキストで訓練される。
従来のアプローチでは、用語の監督をテキストベースの文の埋め込みに置き換えていたが、これまでは、これらは特定の言語とモダリティに結び付けられていた。
対照的に、複数の言語からのテキストや音声で訓練された言語に依存しないマルチモーダル埋め込みを用いてSLTを監督し、直接多言語翻訳を可能にする。
データ不足に対処するため,多言語目標拡張(多言語への翻訳)とビデオレベルの摂動を併用し,モデルロバスト性を向上する結合拡張手法を提案する。
実験の結果、BLEURTはテキストのみの文埋め込み管理よりも一貫した向上を示し、低リソース設定が大幅に改善された。
以上の結果から,言語非依存の埋め込み管理と統合拡張が組み合わさって,従来のSLTトレーニングに代わるスケーラブルでセマンティックな代替手段を提供することが示された。
関連論文リスト
- PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization [9.349707150988893]
本稿では,視覚的インストラクションチューニング中にテキストのみの多言語データを注入する連続多言語統合戦略を提案する。
本手法は,視覚能力の低下を伴わない言語間の言語忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-28T16:26:52Z) - ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Multilingual Contrastive Framework [78.07201802874529]
ShifConはシフトベースの多言語コントラストフレームワークで、他の言語の内部のフォワードプロセスを支配的な言語に合わせる。
実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-25T10:28:59Z) - Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T12:26:57Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。