論文の概要: Teach Me Sign: Stepwise Prompting LLM for Sign Language Production
- arxiv url: http://arxiv.org/abs/2507.10972v1
- Date: Tue, 15 Jul 2025 04:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.977793
- Title: Teach Me Sign: Stepwise Prompting LLM for Sign Language Production
- Title(参考訳): Teach Me Sign: 手話生産のためのステップワイドなLLM
- Authors: Zhaoyi An, Rei Kawakami,
- Abstract要約: 我々は,手話を別の自然言語として扱うTEAM-Sign(TEAM-Sign)を提案する。
LLMを微調整することで、テキストと手話の対応を学習することができる。
そこで我々は,手話と手話の相違を考慮し,手話知識の抽出を段階的に進める戦略を採用した。
- 参考スコア(独自算出の注目度): 4.855031479710184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models, with their strong reasoning ability and rich knowledge, have brought revolution to many tasks of AI, but their impact on sign language generation remains limited due to its complexity and unique rules. In this paper, we propose TEAch Me Sign (TEAM-Sign), treating sign language as another natural language. By fine-tuning an LLM, we enable it to learn the correspondence between text and sign language, and facilitate generation. Considering the differences between sign and spoken language, we employ a stepwise prompting strategy to extract the inherent sign language knowledge within the LLM, thereby supporting the learning and generation process. Experimental results on How2Sign and Phoenix14T datasets demonstrate that our approach effectively leverages both the sign language knowledge and reasoning capabilities of LLM to align the different distribution and grammatical rules between sign and spoken language.
- Abstract(参考訳): 強力な推論能力と豊富な知識を持つ大規模な言語モデルは、AIの多くのタスクに革命をもたらしたが、その複雑さとユニークなルールのために、手話生成への影響は制限されている。
本稿では,手話を別の自然言語として扱うTEAM-Signを提案する。
LLMを微調整することにより、テキストと手話の対応を学習し、生成を容易にする。
我々は,手話と音声言語の違いを考慮し,段階的に手話の知識を抽出し,学習・生成プロセスを支援する。
How2SignとPhoenix14Tデータセットによる実験結果から,本手法は手話知識とLLMの推論能力の両方を効果的に活用し,手話と音声言語間の異なる分布と文法規則の整合性を示す。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。
マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。
提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T09:01:41Z) - SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。
SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。
SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Enhanced Sign Language Translation between American Sign Language (ASL) and Indian Sign Language (ISL) Using LLMs [0.2678472239880052]
我々は、アメリカ手話の利用者と話し言葉とインド手話(ISL)の利用者の間に橋渡しを提供することを目標とする研究を思いついた。
このフレームワークは、ジェスチャーの可変性の自動処理や、ASLとISLの言語的違いを克服するといった重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-19T17:45:12Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Using an LLM to Turn Sign Spottings into Spoken Language Sentences [30.882890874888417]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,符号スポッターと強力な大言語モデル(LLM)を用いてSLT性能を向上させるハイブリッドSLTアプローチであるSputter+GPTを提案する。
論文 参考訳(メタデータ) (2024-03-15T16:14:34Z) - Learnt Contrastive Concept Embeddings for Sign Recognition [33.72708697077754]
我々は手話と話し言葉のギャップを埋める手話埋め込みを明示的に作成することに注力する。
我々は手話ビデオの言語ラベルに基づく埋め込みの語彙を訓練する。
我々は,NLP法から単語埋め込みを活用可能な概念的類似性損失を開発し,音声言語対応に優れた手話を含む手話埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-18T12:47:18Z) - All You Need In Sign Language Production [50.3955314892191]
言語認識と生産のサインは、いくつかの重要な課題に対処する必要があります。
本稿では,難聴文化,難聴センター,手話の心理的視点について紹介する。
また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。
論文 参考訳(メタデータ) (2022-01-05T13:45:09Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。