Fugu-MT 論文翻訳(概要): Enhanced Sign Language Translation between American Sign Language (ASL) and Indian Sign Language (ISL) Using LLMs

論文の概要: Enhanced Sign Language Translation between American Sign Language (ASL) and Indian Sign Language (ISL) Using LLMs

arxiv url: http://arxiv.org/abs/2411.12685v1
Date: Tue, 19 Nov 2024 17:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.195075
Title: Enhanced Sign Language Translation between American Sign Language (ASL) and Indian Sign Language (ISL) Using LLMs
Title（参考訳）: LLMを用いたアメリカ手話(ASL)とインド手話(ISL)間の手話翻訳の強化
Authors: Malay Kumar, S. Sarvajit Visagan, Tanish Sarang Mahajan, Anisha Natarajan,
Abstract要約: 我々は、アメリカ手話の利用者と話し言葉とインド手話(ISL)の利用者の間に橋渡しを提供することを目標とする研究を思いついた。このフレームワークは、ジェスチャーの可変性の自動処理や、ASLとISLの言語的違いを克服するといった重要な課題に対処する。
参考スコア（独自算出の注目度）: 0.2678472239880052
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We have come up with a research that hopes to provide a bridge between the users of American Sign Language and the users of spoken language and Indian Sign Language (ISL). The research enabled us to create a novel framework that we have developed for Learner Systems. Leveraging art of Large models to create key features including: - Real-time translation between these two sign languages in an efficient manner. Making LLM's capability available for seamless translations to ISL. Here is the full study showing its implementation in this paper. The core of the system is a sophisticated pipeline that begins with reclassification and recognition of ASL gestures based on a strong Random Forest Classifier. By recognizing the ASL, it is translated into text which can be more easily processed. Highly evolved natural language NLP (Natural Language Processing) techniques come in handy as they play a role in our LLM integration where you then use LLMs to be able to convert the ASL text to ISL which provides you with the intent of sentence or phrase. The final step is to synthesize the translated text back into ISL gestures, creating an end-to-end translation experience using RIFE-Net. This framework is tasked with key challenges such as automatically dealing with gesture variability and overcoming the linguistic differences between ASL and ISL. By automating the translation process, we hope to vastly improve accessibility for sign language users. No longer will the communication gap between ASL and ISL create barriers; this totally cool innovation aims to bring our communities closer together. And we believe, with full confidence in our framework, that we're able to apply the same principles across a wide variety of sign language dialects.
Abstract（参考訳）: 我々は、アメリカ手話の利用者と話し言葉とインド手話(ISL)の利用者の間に橋渡しを提供することを目標とする研究を思いついた。この研究により、我々はLearner Systemsのために開発した新しいフレームワークを作成できるようになりました。大規模モデルの芸術を活用して重要な機能を作成する。 LLMの能力はISLへのシームレスな翻訳が可能である。以下は、本論文における実装に関する完全な研究である。システムのコアは、強力なランダムフォレスト分類器に基づいて、ASLジェスチャの再分類と認識から始まる洗練されたパイプラインである。 ASLを認識することで、より容易に処理できるテキストに変換される。高度に進化した自然言語 NLP (Natural Language Processing) 技術は LLM 統合において役割を担っているので便利です。最後のステップは、翻訳されたテキストをISLジェスチャに合成し、RIFE-Netを使ったエンドツーエンドの翻訳エクスペリエンスを作成することである。このフレームワークは、ジェスチャーの可変性の自動処理や、ASLとISLの言語的違いを克服するといった重要な課題に対処する。翻訳プロセスの自動化により,手話利用者のアクセシビリティを大幅に向上させることが望まれる。 ASLとISLのコミュニケーションギャップはもはや障壁を生じさせません。そして、フレームワークに完全に自信を持って、さまざまな手話方言に同じ原則を適用することができると信じています。

関連論文リスト

Teach Me Sign: Stepwise Prompting LLM for Sign Language Production [4.855031479710184]
我々は,手話を別の自然言語として扱うTEAM-Sign(TEAM-Sign)を提案する。 LLMを微調整することで、テキストと手話の対応を学習することができる。そこで我々は,手話と手話の相違を考慮し,手話知識の抽出を段階的に進める戦略を採用した。
論文参考訳（メタデータ） (2025-07-15T04:31:52Z)
LLaVA-SLT: Visual Language Tuning for Sign Language Translation [42.20090162339927]
近年の手話翻訳(SLT)の進歩は将来性を示しているが、精度の面ではグロスベースのアプローチに大きく遅れていることが多い。我々はLLaVA-SLTというLarge Multimodal Model (LMM) フレームワークを紹介した。 LLaVA-SLTは最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-21T08:01:08Z)
Real-Time Multilingual Sign Language Processing [4.626189039960495]
手話処理(SLP)は、自然言語処理(NLP)とコンピュータビジョンからなる学際分野である。伝統的なアプローチは、言語固有のものであり、手話の多次元的な性質を捉えるのに不十分なグロスベースのシステムを使用することによって、しばしば制約されてきた。本稿では,手話文字起こし表記システムであるSignWiringを,手話の視覚・ジェスチャーのモダリティとテキストに基づく言語表現の中間的リンクとして用いることを提案する。
論文参考訳（メタデータ） (2024-12-02T21:51:41Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-25T09:01:41Z)
The American Sign Language Knowledge Graph: Infusing ASL Models with Linguistic Knowledge [6.481946043182915]
専門的な言語知識の12つの情報源からコンパイルされたASLKG(American Sign Language Knowledge Graph)を紹介する。我々は、ASLKGを用いて、3つのASL理解タスクのニューロシンボリックモデルをトレーニングし、ISRで91%のアキュラシーを達成し、14%の未確認のサインのセマンティックな特徴を予測し、36%のYoutube-ASLビデオのトピックを分類した。
論文参考訳（メタデータ） (2024-11-06T00:16:16Z)
SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。 SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文参考訳（メタデータ） (2024-09-02T08:56:12Z)
FLEURS-ASL: Including American Sign Language in Massively Multilingual Multitask Evaluation [0.9790236766474201]
FLORES(テキスト用)とFLEURS(音声用)のマルチウェイ並列ベンチマークであるFLEURS-ASLを導入する。 FLEURS-ASLは、ASLと200言語間の様々なタスクをテキストとして、あるいは102言語を音声として評価するために使用することができる。タイムスタンプトークンと過去のテキストトークンを34秒のコンテキストウィンドウに組み込んだ統一モデリングアプローチを用いて,ASLから英語テキストへのタスクのベースラインを提供する。また、FLEURS-ASLを用いて、マルチモーダルフロンティアモデルがASLを事実上理解していないことを示す。
論文参考訳（メタデータ） (2024-08-24T13:59:41Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
iSign: A Benchmark for Indian Sign Language Processing [5.967764101493575]
iSignは、Indian Sign Language (ISL) 処理のベンチマークである。我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。 ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
論文参考訳（メタデータ） (2024-07-07T15:07:35Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文参考訳（メタデータ） (2023-07-29T18:01:46Z)
Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。 i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文参考訳（メタデータ） (2023-07-27T10:59:18Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
Modeling Global Body Configurations in American Sign Language [2.8575516056239576]
アメリカ手話 (American Sign Language, ASL) は、アメリカ合衆国で4番目に一般的に使われている言語である。 ASL(英語: ASL)は、アメリカ合衆国とカナダの英語圏で最も一般的に使われている言語である。
論文参考訳（メタデータ） (2020-09-03T06:20:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。