論文の概要: Large Sign Language Models: Toward 3D American Sign Language Translation
- arxiv url: http://arxiv.org/abs/2511.08535v1
- Date: Wed, 12 Nov 2025 02:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.85491
- Title: Large Sign Language Models: Toward 3D American Sign Language Translation
- Title(参考訳): 大規模手話モデル:3次元アメリカ手話翻訳を目指して
- Authors: Sen Zhang, Xiaoxiao He, Di Liu, Zhaoyang Xia, Mingyu Zhao, Chaowei Tan, Vivian Li, Bo Liu, Dimitris N. Metaxas, Mubbasir Kapadia,
- Abstract要約: 3D American Sign Language (ASL) を翻訳する新しいフレームワークであるLarge Sign Language Models (LSLM) を提案する。
2次元映像に依存する既存の手話認識法とは違い,本手法では3次元手話データを直接利用して,3次元シーンにおける空間的・ジェスチャー的・奥行き的な情報を取り込む。
これにより、より正確でレジリエントな翻訳が可能になり、聴覚障害者コミュニティのデジタルコミュニケーションアクセシビリティを高めることができる。
- 参考スコア(独自算出の注目度): 33.777693392753385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Large Sign Language Models (LSLM), a novel framework for translating 3D American Sign Language (ASL) by leveraging Large Language Models (LLMs) as the backbone, which can benefit hearing-impaired individuals' virtual communication. Unlike existing sign language recognition methods that rely on 2D video, our approach directly utilizes 3D sign language data to capture rich spatial, gestural, and depth information in 3D scenes. This enables more accurate and resilient translation, enhancing digital communication accessibility for the hearing-impaired community. Beyond the task of ASL translation, our work explores the integration of complex, embodied multimodal languages into the processing capabilities of LLMs, moving beyond purely text-based inputs to broaden their understanding of human communication. We investigate both direct translation from 3D gesture features to text and an instruction-guided setting where translations can be modulated by external prompts, offering greater flexibility. This work provides a foundational step toward inclusive, multimodal intelligent systems capable of understanding diverse forms of language.
- Abstract(参考訳): 本稿では,Large Sign Language Models (LSLM) という3D American Sign Language (ASL) をバックボーンとして活用し,聴覚障害者の仮想コミュニケーションに役立つ3D American Sign Language (LLM) の翻訳フレームワークを提案する。
2次元映像に依存する既存の手話認識法とは違い,本手法では3次元手話データを直接利用して,豊かな空間的,ジェスチャー的,奥行き的な情報を3次元シーンで捉えている。
これにより、より正確でレジリエントな翻訳が可能になり、聴覚障害者コミュニティのデジタルコミュニケーションアクセシビリティを高めることができる。
ASL翻訳のタスクを超えて、我々の研究は、複雑で具体化されたマルチモーダル言語をLLMの処理能力に統合することを模索し、純粋にテキストベースの入力を超えて、人間のコミュニケーションに対する理解を広げる。
本研究では,3次元ジェスチャー機能からテキストへの直接翻訳と,外部のプロンプトによって翻訳を変調できる命令誘導設定の両方について検討し,柔軟性を向上する。
この研究は、多様な言語形式を理解することができる包括的でマルチモーダルなインテリジェントシステムに向けた基礎的なステップを提供する。
関連論文リスト
- Real-Time Multilingual Sign Language Processing [4.626189039960495]
手話処理(SLP)は、自然言語処理(NLP)とコンピュータビジョンからなる学際分野である。
伝統的なアプローチは、言語固有のものであり、手話の多次元的な性質を捉えるのに不十分なグロスベースのシステムを使用することによって、しばしば制約されてきた。
本稿では,手話文字起こし表記システムであるSignWiringを,手話の視覚・ジェスチャーのモダリティとテキストに基づく言語表現の中間的リンクとして用いることを提案する。
論文 参考訳(メタデータ) (2024-12-02T21:51:41Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [14.817951264354022]
手話翻訳(SLT)は手話イメージを音声言語に翻訳する作業である。
マルチモーダル手話翻訳(MMSLT)と呼ばれる新しい光沢のないフレームワークを提案する。
提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T09:01:41Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [130.40123493752816]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark [20.11364909443987]
SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。
データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。