論文の概要: Design an Editable Speech-to-Sign-Language Transformer System: A Human-Centered AI Approach
- arxiv url: http://arxiv.org/abs/2506.14677v1
- Date: Tue, 17 Jun 2025 16:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.563843
- Title: Design an Editable Speech-to-Sign-Language Transformer System: A Human-Centered AI Approach
- Title(参考訳): 編集可能な音声-手話変換システムの設計:人間中心AIアプローチ
- Authors: Yingchao Li,
- Abstract要約: このフレームワークは、手話技術における重要な制限を克服し、直接のユーザ検査と手話セグメントの変更を可能にする。
このシステムは3Dアバターレンダリングのための上体と顔の動きに音声入力を同期させる。
20人の聴覚障害者と5人の通訳による実験から、編集可能なインタフェースと参加型フィードバックは、認知負荷を低減しつつ、理解、自然性、ユーザビリティ、信頼を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a human-centered, real-time, user-adaptive speech-to-sign language animation system that integrates Transformer-based motion generation with a transparent, user-editable JSON intermediate layer. The framework overcomes key limitations in prior sign language technologies by enabling direct user inspection and modification of sign segments, thus enhancing naturalness, expressiveness, and user agency. Leveraging a streaming Conformer encoder and autoregressive Transformer-MDN decoder, the system synchronizes spoken input into upper-body and facial motion for 3D avatar rendering. Edits and user ratings feed into a human-in-the-loop optimization loop for continuous improvement. Experiments with 20 deaf signers and 5 interpreters show that the editable interface and participatory feedback significantly improve comprehension, naturalness, usability, and trust, while lowering cognitive load. With sub-20 ms per-frame inference on standard hardware, the system is ready for real-time communication and education. This work illustrates how technical and participatory innovation together enable accessible, explainable, and user-adaptive AI for sign language technology.
- Abstract(参考訳): 本稿では,トランスフォーマーに基づくモーション生成と透明でユーザ編集可能なJSON中間層を統合した,人間中心,リアルタイム,ユーザ適応型言語アニメーションシステムを提案する。
このフレームワークは,サインセグメントの直接検査と修正を可能にし,自然性,表現性,ユーザエージェンシーを向上することで,先行手話技術の限界を克服する。
ストリーミングコンバータエンコーダと自動回帰トランスフォーマー-MDNデコーダを活用し、システムは3Dアバターレンダリングのために、上半身と顔の動きに音声入力を同期させる。
編集とユーザ評価は、継続的改善のために、Human-in-the-loop最適化ループにフィードする。
20人の聴覚障害者と5人の通訳による実験から、編集可能なインタフェースと参加型フィードバックは、認知負荷を低減しつつ、理解、自然性、ユーザビリティ、信頼を著しく改善することが示された。
標準ハードウェア上でのフレーム当たり20ミリ秒未満の推論により、システムはリアルタイム通信と教育の準備ができている。
この研究は、技術と参加型イノベーションが手話技術に対してアクセスしやすく、説明しやすく、ユーザ適応型のAIを実現する方法を説明する。
関連論文リスト
- Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition [41.94295877935867]
手話は、聴覚障害と難聴(DHH)コミュニティのためのコミュニケーションの基本的な手段である。
聴覚障害者の間で 手話の流布が 限られているため 障壁は持続する
単語レベルアメリカン手話(ASL)認識のためのビデオビジョン変換器(ViViT)モデルを提案する。
論文 参考訳(メタデータ) (2025-04-10T14:27:25Z) - AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - Prompt-to-OS (P2OS): Revolutionizing Operating Systems and
Human-Computer Interaction with Integrated AI Generative Models [10.892991111926573]
本稿では,従来のオペレーティングシステムの概念に革命をもたらす,人間とコンピュータのインタラクションのためのパラダイムを提案する。
この革新的なフレームワークでは、マシンに発行されるユーザリクエストは、生成AIモデルの相互接続エコシステムによって処理される。
このビジョンの概念は、プライバシ、セキュリティ、信頼性、生成モデルの倫理的利用など、重要な課題を提起する。
論文 参考訳(メタデータ) (2023-10-07T17:16:34Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Emotion-Aware Transformer Encoder for Empathetic Dialogue Generation [6.557082555839738]
ユーザの発話中の感情的商をキャプチャする感情認識型トランスフォーマーエンコーダを提案する。
感情検知モジュールは、初期段階におけるユーザの感情状態を決定する。
感情埋め込みによる単語埋め込みの追加と正規化を行う新しいトランスフォーマーエンコーダを提案する。
論文 参考訳(メタデータ) (2022-04-24T17:05:36Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - SG-Net: Syntax Guided Transformer for Language Representation [58.35672033887343]
本稿では,言語的動機づけのある単語表現のための明示的な構文制約をアテンション機構に組み込むことにより,テキストモデリングの指導に構文を用いることを提案する。
詳細は、自己注意ネットワーク(SAN)が支援するTransformerベースのエンコーダについて、SANにSDOI設計の構文依存性を導入し、構文誘導型自己注意型SDOI-SANを形成する。
機械読解、自然言語推論、ニューラルネットワーク翻訳などの一般的なベンチマークタスクの実験は、提案したSG-Net設計の有効性を示している。
論文 参考訳(メタデータ) (2020-12-27T11:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。