論文の概要: AI-Driven Modular Services for Accessible Multilingual Education in Immersive Extended Reality Settings: Integrating Speech Processing, Translation, and Sign Language Rendering
- arxiv url: http://arxiv.org/abs/2604.05591v1
- Date: Tue, 07 Apr 2026 08:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.718851
- Title: AI-Driven Modular Services for Accessible Multilingual Education in Immersive Extended Reality Settings: Integrating Speech Processing, Translation, and Sign Language Rendering
- Title(参考訳): 没入型拡張現実感設定におけるアクセシブル多言語教育のためのAI駆動型モジュールサービス:音声処理、翻訳、手話レンダリングの統合
- Authors: N. D. Tantaroudas, A. J. McCracken, I. Karachalios, E. Papatheou,
- Abstract要約: この作業では、6つのAIサービス、OpenAI Whisperによる自動音声認識、Meta NLLBによる多言語翻訳、AWS Pollyを使用した音声合成、RoBERTaによる感情分類、flan t5base Samsumによる対話要約、Google MediaPipeによる国際署名レンダリングなど、モジュール化されたプラットフォームを導入している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work introduces a modular platform that brings together six AI services, automatic speech recognition via OpenAI Whisper, multilingual translation through Meta NLLB, speech synthesis using AWS Polly, emotion classification with RoBERTa, dialogue summarisation via flan t5 base samsum, and International Sign (IS) rendering through Google MediaPipe. A corpus of IS gesture recordings was processed to derive hand landmark coordinates, which were subsequently mapped onto three dimensional avatar animations inside a virtual reality (VR) environment. Validation comprised technical benchmarking of each AI component, including comparative assessments of speech synthesis providers and multilingual translation models (NLLB 200 and EuroLLM 1.7B variants). Technical evaluations confirmed the suitability of the platform for real time XR deployment. Speech synthesis benchmarking established that AWS Polly delivers the lowest latency at a competitive price point. The EuroLLM 1.7B Instruct variant attained a higher BLEU score, surpassing NLLB. These findings establish the viability of orchestrating cross modal AI services within XR settings for accessible, multilingual language instruction. The modular design permits independent scaling and adaptation to varied educational contexts, providing a foundation for equitable learning solutions aligned with European Union digital accessibility goals.
- Abstract(参考訳): この作業では、6つのAIサービス、OpenAI Whisperによる自動音声認識、Meta NLLBによる多言語翻訳、AWS Pollyを使用した音声合成、RoBERTaによる感情分類、flan t5base Samsumによる対話要約、Google MediaPipeによるInternational Sign(IS)レンダリングなどが導入されている。
ISジェスチャ記録のコーパスは手動のランドマーク座標を導出するために処理され、その後バーチャルリアリティ(VR)環境内の3次元アバターアニメーションにマッピングされた。
検証は、音声合成プロバイダと多言語翻訳モデル(NLLB 200とEuroLLM 1.7B)の比較評価を含む、各AIコンポーネントの技術的ベンチマークで構成された。
技術的評価により、リアルタイムのXRデプロイメントにプラットフォームが適していることが確認された。
音声合成ベンチマークでは、競争力のある価格でAWS Pollyが最低レイテンシを提供することを確認した。
EuroLLM 1.7B 命令型はより高いBLEUスコアを獲得し、NLLBを上回った。
これらの知見は、アクセシブルな多言語言語指導のためのXR設定内で、クロスモーダルAIサービスのオーケストレーションが可能であることを証明している。
モジュール設計は、様々な教育状況への独立的なスケーリングと適応を可能にし、欧州連合のデジタルアクセシビリティーの目標に沿った、平等な学習ソリューションの基礎を提供する。
関連論文リスト
- INTERACT: An AI-Driven Extended Reality Framework for Accesible Communication Featuring Real-Time Sign Language Interpretation and Emotion Recognition [0.0]
本稿ではAI駆動型XRプラットフォームであるInterACT(Inclusive Networking for Translation and Embodied Real-Time Augmented Communication Tool)を提案する。
3Dアバターによるリアルタイム音声テキスト変換、国際手話(ISL)レンダリング、多言語翻訳、感情認識を没入型仮想環境に統合する。
調査では、ユーザの満足度は92%、転写精度は85%以上、感情検出精度は90%だった。
論文 参考訳(メタデータ) (2026-04-07T08:56:53Z) - OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models [22.0296007342245]
OmniVoiceは600以上の言語にスケールする大規模多言語テキスト音声合成モデルである。
コアとなるのは、新しい拡散言語モデルスタイルの離散非自己回帰(NAR)アーキテクチャである。
OmniVoiceは、オープンソースデータから完全にキュレートされた581k時間のマルチリンガルデータセットを活用することで、これまでで最も広い範囲の言語カバレッジを実現している。
論文 参考訳(メタデータ) (2026-04-01T09:45:51Z) - Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning [5.770962296305264]
多様な言語とアクセントをサポートするコンテキスト対応多言語ASRフレームワークを提案する。
提案手法は,フリーズした音声エンコーダと,軽量プロジェクションモジュールによるデコーダのみの言語モデルを組み合わせたものである。
文脈入力は認識品質を継続的に改善することを示す。
論文 参考訳(メタデータ) (2026-03-06T17:37:06Z) - Cross-Lingual Interleaving for Speech Language Models [29.477655980414273]
音声言語モデル(SLM)は,個別単位を用いて言語能力を直接学習することを目的としている。
本稿では,言語間で音声トークンを混在させる言語間相互補完手法を提案する。
論文 参考訳(メタデータ) (2025-12-01T16:48:05Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。