論文の概要: Human-Centered Editable Speech-to-Sign-Language Generation via Streaming Conformer-Transformer and Resampling Hook
- arxiv url: http://arxiv.org/abs/2506.14677v2
- Date: Tue, 24 Jun 2025 13:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 13:29:37.693669
- Title: Human-Centered Editable Speech-to-Sign-Language Generation via Streaming Conformer-Transformer and Resampling Hook
- Title(参考訳): ストリーミングコンバータ変換器と再サンプリングフックによる人間中心の音声-署名-言語生成
- Authors: Yingchao Li,
- Abstract要約: 既存のエンドツーエンドの手話アニメーションシステムは、自然度が低く、顔/身体の表現性が制限され、ユーザ制御ができない。
本稿では,人間中心のリアルタイム音声署名アニメーションフレームワークを提案する。
Unity3D上にデプロイされたシステムでは,13msのフレームイン時間と103msのレイテンシを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing end-to-end sign-language animation systems suffer from low naturalness, limited facial/body expressivity, and no user control. We propose a human-centered, real-time speech-to-sign animation framework that integrates (1) a streaming Conformer encoder with an autoregressive Transformer-MDN decoder for synchronized upper-body and facial motion generation, (2) a transparent, editable JSON intermediate representation empowering deaf users and experts to inspect and modify each sign segment, and (3) a human-in-the-loop optimization loop that refines the model based on user edits and ratings. Deployed on Unity3D, our system achieves a 13 ms average frame-inference time and a 103 ms end-to-end latency on an RTX 4070. Our key contributions include the design of a JSON-centric editing mechanism for fine-grained sign-level personalization and the first application of an MDN-based feedback loop for continuous model adaptation. This combination establishes a generalizable, explainable AI paradigm for user-adaptive, low-latency multimodal systems. In studies with 20 deaf signers and 5 professional interpreters, we observe a +13 point SUS improvement, 6.7 point reduction in cognitive load, and significant gains in naturalness and trust (p $<$ .001) over baselines. This work establishes a scalable, explainable AI paradigm for accessible sign-language technologies.
- Abstract(参考訳): 既存のエンドツーエンドの手話アニメーションシステムは、自然度が低く、顔/身体の表現性が制限され、ユーザ制御ができない。
本研究では,(1)自己回帰型トランスフォーマー-MDNデコーダを用いた自動回帰型トランスフォーマー-MDNデコーダと,(2)難聴者や専門家が各サインセグメントを検査・修正するための透明で編集可能なJSON中間表現,(3)ユーザの編集と評価に基づいてモデルを洗練する人間-ループ間最適化ループを提案する。
Unity3D上にデプロイされた本システムは,RTX 4070上で13msの平均フレーム推論時間と103msのエンドツーエンドレイテンシを実現する。
キーとなるコントリビューションは、きめ細かいサインレベルのパーソナライズのためのJSON中心の編集機構の設計と、連続モデル適応のためのMDNベースのフィードバックループの最初の応用である。
この組み合わせは、ユーザ適応型低レイテンシマルチモーダルシステムのための一般化可能な説明可能なAIパラダイムを確立する。
20人の聴覚障害者と5人のプロの通訳による研究では、+13ポイントのSUS改善、6.7ポイントの認知負荷の低減、およびベースライン上の自然性と信頼の顕著な増加(p$<$ .001)を観察した。
この作業は、アクセス可能な手話技術のためのスケーラブルで説明可能なAIパラダイムを確立する。
関連論文リスト
- Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition [41.94295877935867]
手話は、聴覚障害と難聴(DHH)コミュニティのためのコミュニケーションの基本的な手段である。
聴覚障害者の間で 手話の流布が 限られているため 障壁は持続する
単語レベルアメリカン手話(ASL)認識のためのビデオビジョン変換器(ViViT)モデルを提案する。
論文 参考訳(メタデータ) (2025-04-10T14:27:25Z) - AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - Prompt-to-OS (P2OS): Revolutionizing Operating Systems and
Human-Computer Interaction with Integrated AI Generative Models [10.892991111926573]
本稿では,従来のオペレーティングシステムの概念に革命をもたらす,人間とコンピュータのインタラクションのためのパラダイムを提案する。
この革新的なフレームワークでは、マシンに発行されるユーザリクエストは、生成AIモデルの相互接続エコシステムによって処理される。
このビジョンの概念は、プライバシ、セキュリティ、信頼性、生成モデルの倫理的利用など、重要な課題を提起する。
論文 参考訳(メタデータ) (2023-10-07T17:16:34Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Emotion-Aware Transformer Encoder for Empathetic Dialogue Generation [6.557082555839738]
ユーザの発話中の感情的商をキャプチャする感情認識型トランスフォーマーエンコーダを提案する。
感情検知モジュールは、初期段階におけるユーザの感情状態を決定する。
感情埋め込みによる単語埋め込みの追加と正規化を行う新しいトランスフォーマーエンコーダを提案する。
論文 参考訳(メタデータ) (2022-04-24T17:05:36Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - SG-Net: Syntax Guided Transformer for Language Representation [58.35672033887343]
本稿では,言語的動機づけのある単語表現のための明示的な構文制約をアテンション機構に組み込むことにより,テキストモデリングの指導に構文を用いることを提案する。
詳細は、自己注意ネットワーク(SAN)が支援するTransformerベースのエンコーダについて、SANにSDOI設計の構文依存性を導入し、構文誘導型自己注意型SDOI-SANを形成する。
機械読解、自然言語推論、ニューラルネットワーク翻訳などの一般的なベンチマークタスクの実験は、提案したSG-Net設計の有効性を示している。
論文 参考訳(メタデータ) (2020-12-27T11:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。