Fugu-MT 論文翻訳(概要): Human-Centered Editable Speech-to-Sign-Language Generation via Streaming Conformer-Transformer and Resampling Hook

論文の概要: Human-Centered Editable Speech-to-Sign-Language Generation via Streaming Conformer-Transformer and Resampling Hook

arxiv url: http://arxiv.org/abs/2506.14677v2
Date: Tue, 24 Jun 2025 13:11:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 13:29:37.693669
Title: Human-Centered Editable Speech-to-Sign-Language Generation via Streaming Conformer-Transformer and Resampling Hook
Title（参考訳）: ストリーミングコンバータ変換器と再サンプリングフックによる人間中心の音声-署名-言語生成
Authors: Yingchao Li,
Abstract要約: 既存のエンドツーエンドの手話アニメーションシステムは、自然度が低く、顔/身体の表現性が制限され、ユーザ制御ができない。本稿では,人間中心のリアルタイム音声署名アニメーションフレームワークを提案する。 Unity3D上にデプロイされたシステムでは,13msのフレームイン時間と103msのレイテンシを実現している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing end-to-end sign-language animation systems suffer from low naturalness, limited facial/body expressivity, and no user control. We propose a human-centered, real-time speech-to-sign animation framework that integrates (1) a streaming Conformer encoder with an autoregressive Transformer-MDN decoder for synchronized upper-body and facial motion generation, (2) a transparent, editable JSON intermediate representation empowering deaf users and experts to inspect and modify each sign segment, and (3) a human-in-the-loop optimization loop that refines the model based on user edits and ratings. Deployed on Unity3D, our system achieves a 13 ms average frame-inference time and a 103 ms end-to-end latency on an RTX 4070. Our key contributions include the design of a JSON-centric editing mechanism for fine-grained sign-level personalization and the first application of an MDN-based feedback loop for continuous model adaptation. This combination establishes a generalizable, explainable AI paradigm for user-adaptive, low-latency multimodal systems. In studies with 20 deaf signers and 5 professional interpreters, we observe a +13 point SUS improvement, 6.7 point reduction in cognitive load, and significant gains in naturalness and trust (p $<$ .001) over baselines. This work establishes a scalable, explainable AI paradigm for accessible sign-language technologies.
Abstract（参考訳）: 既存のエンドツーエンドの手話アニメーションシステムは、自然度が低く、顔/身体の表現性が制限され、ユーザ制御ができない。本研究では,(1)自己回帰型トランスフォーマー-MDNデコーダを用いた自動回帰型トランスフォーマー-MDNデコーダと,(2)難聴者や専門家が各サインセグメントを検査・修正するための透明で編集可能なJSON中間表現,(3)ユーザの編集と評価に基づいてモデルを洗練する人間-ループ間最適化ループを提案する。 Unity3D上にデプロイされた本システムは,RTX 4070上で13msの平均フレーム推論時間と103msのエンドツーエンドレイテンシを実現する。キーとなるコントリビューションは、きめ細かいサインレベルのパーソナライズのためのJSON中心の編集機構の設計と、連続モデル適応のためのMDNベースのフィードバックループの最初の応用である。この組み合わせは、ユーザ適応型低レイテンシマルチモーダルシステムのための一般化可能な説明可能なAIパラダイムを確立する。 20人の聴覚障害者と5人のプロの通訳による研究では、+13ポイントのSUS改善、6.7ポイントの認知負荷の低減、およびベースライン上の自然性と信頼の顕著な増加(p$<$ .001)を観察した。この作業は、アクセス可能な手話技術のためのスケーラブルで説明可能なAIパラダイムを確立する。

関連論文リスト

Neural-Driven Image Editing [51.11173675034121]
従来の画像編集は手動のプロンプトに依存しており、運動制御や言語能力に制限のある個人には労働集約的でアクセスできない。神経生理学的信号によるハンズフリー画像編集手法であるLoongXを提案する。 LoongXは、23,928の画像編集ペアの包括的なデータセットに基づいてトレーニングされた最先端の拡散モデルを使用している。
論文参考訳（メタデータ） (2025-07-07T18:31:50Z)
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-26T08:25:01Z)
Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition [41.94295877935867]
手話は、聴覚障害と難聴(DHH)コミュニティのためのコミュニケーションの基本的な手段である。聴覚障害者の間で手話の流布が限られているため障壁は持続する単語レベルアメリカン手話(ASL)認識のためのビデオビジョン変換器(ViViT)モデルを提案する。
論文参考訳（メタデータ） (2025-04-10T14:27:25Z)
VarGes: Improving Variation in Co-Speech 3D Gesture Generation via StyleCLIPS [4.996271098355553]
VarGesは、共同音声ジェスチャ生成を強化するために設計された、新しい変分駆動フレームワークである。提案手法は,ジェスチャの多様性と自然性の観点から,既存の手法よりも優れるベンチマークデータセットで検証されている。
論文参考訳（メタデータ） (2025-02-15T08:46:01Z)
USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions [6.2486440301992605]
本稿では,マルチモーダル・ユーザ・モデリングとバイアス・アウェア・最適化を統合した総合的なフレームワークであるUser-VLM 360degを提案する。提案手法は,(1)視覚言語信号を用いてリアルタイムに対話を適応するユーザ・アウェア・チューニング,(2)嗜好最適化によるバイアス緩和,(3)人口統計,感情,関係メタデータを付加した360degの社会動機的相互作用データセットをキュレートした。
論文参考訳（メタデータ） (2025-02-15T02:25:49Z)
Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文参考訳（メタデータ） (2024-08-18T07:48:49Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文参考訳（メタデータ） (2024-05-24T11:12:37Z)
AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文参考訳（メタデータ） (2024-05-13T10:09:37Z)
Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference [5.711221299998126]
Persona-Gestorは、高度にパーソナライズされた3Dフルボディジェスチャーを生成するように設計された、新しいエンドツーエンド生成モデルである。このモデルはファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)変換器拡散アーキテクチャを組み合わせたものである。 Persona-Gestorはシステムのユーザビリティと一般化機能を改善する。
論文参考訳（メタデータ） (2024-03-16T04:40:10Z)
Prompt-to-OS (P2OS): Revolutionizing Operating Systems and Human-Computer Interaction with Integrated AI Generative Models [10.892991111926573]
本稿では,従来のオペレーティングシステムの概念に革命をもたらす,人間とコンピュータのインタラクションのためのパラダイムを提案する。この革新的なフレームワークでは、マシンに発行されるユーザリクエストは、生成AIモデルの相互接続エコシステムによって処理される。このビジョンの概念は、プライバシ、セキュリティ、信頼性、生成モデルの倫理的利用など、重要な課題を提起する。
論文参考訳（メタデータ） (2023-10-07T17:16:34Z)
"No, to the Right" -- Online Language Corrections for Robotic Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。 LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文参考訳（メタデータ） (2023-01-06T15:03:27Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
Emotion-Aware Transformer Encoder for Empathetic Dialogue Generation [6.557082555839738]
ユーザの発話中の感情的商をキャプチャする感情認識型トランスフォーマーエンコーダを提案する。感情検知モジュールは、初期段階におけるユーザの感情状態を決定する。感情埋め込みによる単語埋め込みの追加と正規化を行う新しいトランスフォーマーエンコーダを提案する。
論文参考訳（メタデータ） (2022-04-24T17:05:36Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning [52.73083137245969]
そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。
論文参考訳（メタデータ） (2021-07-31T15:13:39Z)
Relaxed Attention: A Simple Method to Boost Performance of End-to-End Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。 WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文参考訳（メタデータ） (2021-07-02T21:01:17Z)
VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T15:22:36Z)
SG-Net: Syntax Guided Transformer for Language Representation [58.35672033887343]
本稿では,言語的動機づけのある単語表現のための明示的な構文制約をアテンション機構に組み込むことにより,テキストモデリングの指導に構文を用いることを提案する。詳細は、自己注意ネットワーク(SAN)が支援するTransformerベースのエンコーダについて、SANにSDOI設計の構文依存性を導入し、構文誘導型自己注意型SDOI-SANを形成する。機械読解、自然言語推論、ニューラルネットワーク翻訳などの一般的なベンチマークタスクの実験は、提案したSG-Net設計の有効性を示している。
論文参考訳（メタデータ） (2020-12-27T11:09:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。