論文の概要: CSF: Contrastive Semantic Features for Direct Multilingual Sign Language Generation
- arxiv url: http://arxiv.org/abs/2601.01964v1
- Date: Mon, 05 Jan 2026 10:15:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.961278
- Title: CSF: Contrastive Semantic Features for Direct Multilingual Sign Language Generation
- Title(参考訳): CSF: 直接多言語手話生成のための対照的な意味的特徴
- Authors: Tran Sy Bao,
- Abstract要約: 手話翻訳システムは通常、中間言語として英語を必要とし、非英語話者の障壁を形成している。
言語に依存しない意味表現フレームワークであるCanonical Semantic Form (CSF)を提案する。
CSFは、発話をイベント、インテント、時間、条件、エージェント、オブジェクト、場所、目的、修飾子という9つの普遍的な意味スロットに分解する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language translation systems typically require English as an intermediary language, creating barriers for non-English speakers in the global deaf community. We present Canonical Semantic Form (CSF), a language-agnostic semantic representation framework that enables direct translation from any source language to sign language without English mediation. CSF decomposes utterances into nine universal semantic slots: event, intent, time, condition, agent, object, location, purpose, and modifier. A key contribution is our comprehensive condition taxonomy comprising 35 condition types across eight semantic categories, enabling nuanced representation of conditional expressions common in everyday communication. We train a lightweight transformer-based extractor (0.74 MB) that achieves 99.03% average slot extraction accuracy across four typologically diverse languages: English, Vietnamese, Japanese, and French. The model demonstrates particularly strong performance on condition classification (99.4% accuracy) despite the 35-class complexity. With inference latency of 3.02ms on CPU, our approach enables real-time sign language generation in browser-based applications. We release our code, trained models, and multilingual dataset to support further research in accessible sign language technology.
- Abstract(参考訳): 手話翻訳システムは通常、中間言語として英語を必要とし、世界的な聴覚障害者コミュニティにおいて非英語話者の障壁を形成している。
本稿では,言語に依存しない意味表現フレームワークであるCanonical Semantic Form (CSF)について述べる。
CSFは、発話をイベント、インテント、時間、条件、エージェント、オブジェクト、場所、目的、修飾子という9つの普遍的な意味スロットに分解する。
重要な貢献は,8つの意味カテゴリーにまたがる35の条件タイプからなる包括的条件分類であり,日常的なコミュニケーションに共通する条件表現のニュアンス表現を可能にする。
我々は,英語,ベトナム語,日本語,フランス語の4言語で99.03%の平均スロット抽出精度を実現する軽量トランスフォーマーベース抽出器 (0.74 MB) を訓練する。
このモデルは35クラスの複雑さにもかかわらず条件分類(99.4%の精度)において特に強い性能を示す。
CPU上での推論遅延3.02msでは,ブラウザベースのアプリケーションでリアルタイム手話生成が可能となる。
我々は、アクセス可能な手話技術に関するさらなる研究を支援するために、コード、訓練されたモデル、多言語データセットをリリースします。
関連論文リスト
- Improving Language and Modality Transfer in Translation by Character-level Modeling [14.145120349133007]
現在の翻訳システムは多言語であるにもかかわらず、世界の言語のうち5%しかカバーしていない。
新しい言語やモダリティへの適応性を改善するための文字ベースアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-30T13:16:08Z) - PolyPrompt: Automating Knowledge Extraction from Multilingual Language Models with Dynamic Prompt Generation [0.0]
大規模言語モデル(LLM)の多言語機能を強化するための新しいパラメータ効率フレームワークであるPolyPromptを紹介する。
提案手法では,各言語に対するトリガトークンの集合を勾配に基づく探索により学習し,入力クエリの言語を識別し,推論中にプロンプトにプリコンパイルされた対応するトリガトークンを選択する。
我々は20億のパラメータモデルで実験を行い、15の類型的および資源的多様言語にわたる世界MMLUベンチマークで評価を行い、ナイーブおよびトランスレーショナル・ピペリンベースラインと比較して3.7%-19.9%の精度向上を示した。
論文 参考訳(メタデータ) (2025-02-27T04:41:22Z) - UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding [31.272603877215733]
言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。
言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
論文 参考訳(メタデータ) (2024-06-24T07:27:01Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual
Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。
具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。
GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文 参考訳(メタデータ) (2022-04-18T13:56:58Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。