論文の概要: Leveraging Large Language Models for Accurate Sign Language Translation in Low-Resource Scenarios
- arxiv url: http://arxiv.org/abs/2508.18183v2
- Date: Mon, 08 Sep 2025 14:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.307187
- Title: Leveraging Large Language Models for Accurate Sign Language Translation in Low-Resource Scenarios
- Title(参考訳): 低リソースシナリオにおける手話翻訳の精度向上のための大規模言語モデルの導入
- Authors: Luana Bulla, Gabriele Tuccio, Misael Mongiovì, Aldo Gangemi,
- Abstract要約: AulSignは、動的プロンプトとテキスト内学習を通じて大規模言語モデルを活用する新しい手法である。
我々は,この分野で認められたベンチマークであるSignBank+と,イタリアのLaCAM CNR-ISTCデータセットを用いて,英語とイタリア語の両言語で評価を行った。
- 参考スコア(独自算出の注目度): 5.599792629509229
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Translating natural languages into sign languages is a highly complex and underexplored task. Despite growing interest in accessibility and inclusivity, the development of robust translation systems remains hindered by the limited availability of parallel corpora which align natural language with sign language data. Existing methods often struggle to generalize in these data-scarce environments, as the few datasets available are typically domain-specific, lack standardization, or fail to capture the full linguistic richness of sign languages. To address this limitation, we propose Advanced Use of LLMs for Sign Language Translation (AulSign), a novel method that leverages Large Language Models via dynamic prompting and in-context learning with sample selection and subsequent sign association. Despite their impressive abilities in processing text, LLMs lack intrinsic knowledge of sign languages; therefore, they are unable to natively perform this kind of translation. To overcome this limitation, we associate the signs with compact descriptions in natural language and instruct the model to use them. We evaluate our method on both English and Italian languages using SignBank+, a recognized benchmark in the field, as well as the Italian LaCAM CNR-ISTC dataset. We demonstrate superior performance compared to state-of-the-art models in low-data scenario. Our findings demonstrate the effectiveness of AulSign, with the potential to enhance accessibility and inclusivity in communication technologies for underrepresented linguistic communities.
- Abstract(参考訳): 自然言語を手話に翻訳するのは、非常に複雑で未熟な作業である。
アクセシビリティとインクリシティーへの関心が高まりつつあるにもかかわらず、堅牢な翻訳システムの開発は、自然言語と手話データとの整合性を持つ並列コーパスの不足によって妨げられている。
利用可能な数少ないデータセットはドメイン固有であり、標準化が欠如し、手話の完全な言語的豊かさを捉えることができないため、既存の手法はこれらのデータ共有環境で一般化に苦慮することが多い。
この制限に対処するために,サンプル選択とそれに続く手話関連を伴う動的プロンプトおよびテキスト内学習を通じて大規模言語モデルを活用する新しい手法である手話翻訳用LLM(AulSign)の高度利用を提案する。
テキスト処理の優れた能力にもかかわらず、LLMは手話の固有の知識を欠いているため、このような翻訳をネイティブに行うことはできない。
この制限を克服するために、これらの記号と自然言語のコンパクトな記述を関連付け、それらを使用するようにモデルに指示する。
我々は,この分野で認められたベンチマークであるSignBank+と,イタリアのLaCAM CNR-ISTCデータセットを用いて,英語とイタリア語の両言語で評価を行った。
低データシナリオにおける最先端モデルと比較して優れた性能を示す。
本研究は, AulSignの有効性を実証し, 未表現言語コミュニティにおけるコミュニケーション技術におけるアクセシビリティとアクセシビリティ向上の可能性を示した。
関連論文リスト
- Language Surgery in Multilingual Large Language Models [32.77326546076424]
大規模言語モデル(LLM)はタスクや言語にまたがる顕著な一般化機能を示している。
本稿では, LLMにおける自然に出現する表現アライメント, 特に中層における表現アライメントについて検討する。
本稿では,言語間言語制御の高精度化と言語混乱を軽減するため,ITLC(Inference-Time Language Control)を提案する。
論文 参考訳(メタデータ) (2025-06-14T11:09:50Z) - Using Sign Language Production as Data Augmentation to enhance Sign Language Translation [31.770455887142095]
手話データセットは、しばしば話される言語データセットよりも桁違いに小さい。
我々は手話生産の最近の進歩を活用して既存の手話データセットを強化することを提案する。
提案手法は,既存のデータセットを効果的に拡張し,手話翻訳モデルの性能を最大19%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-06-11T11:56:51Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。