論文の概要: Towards Continuous Sign Language Conversation from Isolated Signs
- arxiv url: http://arxiv.org/abs/2605.14705v1
- Date: Thu, 14 May 2026 11:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.791961
- Title: Towards Continuous Sign Language Conversation from Isolated Signs
- Title(参考訳): 孤立した手話からの連続手話会話に向けて
- Authors: Youngmin Kim, Kyobin Choo, Jiwoo Park, Minseo Kim, Chanyoung Kim, Junhyeok Kim, Seong Jae Hwang,
- Abstract要約: 本稿では,これまでで最大のラベル付き孤立符号語彙であるSignaVox-Wと,連続的な3次元手話データセットであるSignaVox-Uを紹介する。
得られたデータを用いて、サイン・ツー・サインの直接対話モデルであるSignaVoxをトレーニングし、事前の署名コンテキストから3次元の身体、手、顔の動き応答を生成する。
- 参考スコア(独自算出の注目度): 15.139358499214529
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language is the primary language for many Deaf and Hard-of-Hearing (DHH) signers, yet most conversational AI systems still mediate interaction through spoken or written language. This spoken-language-centered interface can limit access for signers for whom spoken or written language is not the most accessible medium, motivating direct sign-to-sign conversational modeling. However, sentence-level sign video data are expensive to collect and annotate, leaving existing sign translation and production models with limited vocabulary coverage and weak open-domain generalization. We address this bottleneck by constructing continuous sign conversations from isolated signs: large-scale labeled isolated clips are collected as lexically grounded motion primitives and recomposed into sign-language-ordered utterances derived from existing dialogue corpora. We introduce SignaVox-W, which provides, to our knowledge, the largest labeled isolated-sign vocabulary to date, and SignaVox-U, a continuous 3D sign conversation dataset built from SignaVox-W. To bridge structural mismatch between spoken and signed languages, we use a retrieval-guided spoken-to-gloss translator; to bridge independently collected isolated clips, we propose BRAID, a diffusion Transformer that performs duration alignment and co-articulatory boundary inpainting. With the resulting data, we train SignaVox, a direct sign-to-sign conversational model that generates 3D body, hand, and facial motion responses from prior signing context without spoken-language text or externally provided glosses at inference time. Quantitative and qualitative evaluations show improved isolated-to-continuous motion quality, stronger response-level semantic alignment, and scalable signer-centered interaction that better supports visual-spatial articulation.
- Abstract(参考訳): 手話は、多くの難聴者や難聴者(DHH)の署名者にとって主要な言語であるが、ほとんどの会話型AIシステムは、まだ音声や文字による対話を仲介している。
この音声言語中心のインタフェースは、話や書き言葉が最もアクセスしやすい媒体ではないシグナーへのアクセスを制限することができ、直接のシグナー・トゥ・シグナー・モデリングを動機付けている。
しかし、文レベルの手話ビデオデータは収集・注釈するのに費用がかかるため、既存の手話翻訳と生産モデルは語彙に制限があり、オープンドメインの一般化が弱いままである。
大規模ラベル付き孤立クリップは、語彙的に接地された動きプリミティブとして収集され、既存の対話コーパスから派生した手話順の発話に再合成される。
また,SignaVox-Wを用いた連続3次元手話データセットであるSignaVox-Uについても紹介した。
音声と署名された言語間の構造的ミスマッチをブリッジするために、検索誘導音声-グロス変換器を使用し、独立に収集された孤立したクリップをブリッジするために、持続的アライメントと共調境界の塗装を行う拡散変換器であるBRAIDを提案する。
得られたデータを用いて,音声テキストを使わずに事前署名コンテキストから3次元体,手,顔の動作応答を生成する,直接サイン・ツー・サインの対話モデルSignaVoxを訓練する。
定量的および定性的な評価は、分離された連続的な動きの質の向上、より強い応答レベルのセマンティックアライメント、そして視覚空間の調音をより良くサポートするスケーラブルなシグナー中心の相互作用を示す。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。
SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。
SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。