Fugu-MT 論文翻訳(概要): Multilingual Gloss-free Sign Language Translation: Towards Building a Sign Language Foundation Model

論文の概要: Multilingual Gloss-free Sign Language Translation: Towards Building a Sign Language Foundation Model

arxiv url: http://arxiv.org/abs/2505.24355v1
Date: Fri, 30 May 2025 08:47:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.858432
Title: Multilingual Gloss-free Sign Language Translation: Towards Building a Sign Language Foundation Model
Title（参考訳）: 多言語グロスフリー手話翻訳:手話基礎モデルの構築に向けて
Authors: Sihan Tan, Taro Miyazaki, Kazuhiro Nakadai,
Abstract要約: 手話翻訳は、手話(SL)ビデオを音声言語テキストに変換することを目的としている。トークンレベルのSL識別と音声テキスト生成のための2つのCTC目的を持つ多言語グロスフリーモデルを提案する。我々のモデルは10のSLをサポートし、1対1、多対1、多対多のSLTタスクを処理する。
参考スコア（独自算出の注目度）: 3.838572376072069
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sign Language Translation (SLT) aims to convert sign language (SL) videos into spoken language text, thereby bridging the communication gap between the sign and the spoken community. While most existing works focus on translating a single sign language into a single spoken language (one-to-one SLT), leveraging multilingual resources could mitigate low-resource issues and enhance accessibility. However, multilingual SLT (MLSLT) remains unexplored due to language conflicts and alignment difficulties across SLs and spoken languages. To address these challenges, we propose a multilingual gloss-free model with dual CTC objectives for token-level SL identification and spoken text generation. Our model supports 10 SLs and handles one-to-one, many-to-one, and many-to-many SLT tasks, achieving competitive performance compared to state-of-the-art methods on three widely adopted benchmarks: multilingual SP-10, PHOENIX14T, and CSL-Daily.
Abstract（参考訳）: 手話翻訳(SLT)は,手話(SL)ビデオを音声テキストに変換することを目的として,手話と音声コミュニティ間のコミュニケーションギャップを埋めることを目的としている。既存の作業の多くは、単一の手話言語を単一の音声言語(1対1のSLT)に翻訳することに重点を置いているが、多言語リソースを活用することで、低リソースの問題が軽減され、アクセシビリティが向上する可能性がある。しかし、MLSLT(Multilingual SLT)は、SLと音声言語間の言語対立やアライメントの難しさのため、未解明のままである。これらの課題に対処するために,トークンレベルのSL識別と音声テキスト生成のための2つのCTC目的を持つ多言語グロスフリーモデルを提案する。我々のモデルは10のSLをサポートし、1対1、多対1、多対多のSLTタスクを処理し、多言語SP-10、PHOENIX14T、CSL-Dailyの3つの広く採用されているベンチマークにおける最先端の手法と比較して、競合性能を達成する。

関連論文リスト

Lost in Translation, Found in Embeddings: Sign Language Translation and Alignment [84.39962912136525]
我々は手話翻訳(SLT)と手話字幕アライメント(SSA)を実行する手話理解モデルを開発する。 i)人間のキーポイントと唇領域の画像から手動と非手動のキューをキャプチャする軽量な視覚バックボーン,(ii)連続的な視覚特徴を単語レベルの埋め込みに集約するスライディングパーシーバーマッピングネットワーク,(iii)SLTとSSAを協調的に最適化するマルチタスクスケーラブルなトレーニング戦略である。
論文参考訳（メタデータ） (2025-12-08T21:05:46Z)
SONAR-SLT: Multilingual Sign Language Translation via Language-Agnostic Sentence Embedding Supervision [14.416218321809824]
手話翻訳(SLT)は通常、単一の言語でテキストで訓練される。我々は、SLTを監督するために、複数の言語からテキストや音声で訓練された言語に依存しないマルチモーダル埋め込みを採用している。以上の結果から,言語非依存の埋め込み管理と統合拡張が組み合わさって,従来のSLTトレーニングに代わるスケーラブルでセマンティックな代替手段を提供することが示された。
論文参考訳（メタデータ） (2025-10-22T09:17:31Z)
AlignX: Advancing Multilingual Large Language Models with Multilingual Representation Alignment [46.881574083116085]
多言語大言語モデル(LLM)には、印象的な多言語理解と生成能力がある。 LLMのパフォーマンスと言語間アライメントは、非支配言語ではしばしば遅れる。 2段階の表現レベルフレームワークである多言語のパフォーマンスギャップを橋渡しするために,AlignXを提案する。
論文参考訳（メタデータ） (2025-09-29T06:37:46Z)
Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-25T09:01:41Z)
FLEURS-ASL: Including American Sign Language in Massively Multilingual Multitask Evaluation [0.9790236766474201]
FLORES(テキスト用)とFLEURS(音声用)のマルチウェイ並列ベンチマークであるFLEURS-ASLを導入する。 FLEURS-ASLは、ASLと200言語間の様々なタスクをテキストとして、あるいは102言語を音声として評価するために使用することができる。タイムスタンプトークンと過去のテキストトークンを34秒のコンテキストウィンドウに組み込んだ統一モデリングアプローチを用いて,ASLから英語テキストへのタスクのベースラインを提供する。また、FLEURS-ASLを用いて、マルチモーダルフロンティアモデルがASLを事実上理解していないことを示す。
論文参考訳（メタデータ） (2024-08-24T13:59:41Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文参考訳（メタデータ） (2024-04-16T21:45:59Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
Multi-level Contrastive Learning for Cross-lingual Spoken Language Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文参考訳（メタデータ） (2022-05-07T13:44:28Z)
To What Degree Can Language Borders Be Blurred In BERT-based Multilingual Spoken Language Understanding? [7.245261469258502]
BERTをベースとした多言語言語理解(SLU)モデルは, 遠隔言語群でもかなりうまく機能するが, 理想的な多言語言語性能にはまだギャップがあることを示す。本稿では,多言語SLUのための言語共有および言語固有表現を学習するための,BERTに基づく新しい逆モデルアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-11-10T09:59:24Z)
CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文参考訳（メタデータ） (2020-06-11T13:15:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。