論文の概要: INTERACT: An AI-Driven Extended Reality Framework for Accesible Communication Featuring Real-Time Sign Language Interpretation and Emotion Recognition
- arxiv url: http://arxiv.org/abs/2604.05605v1
- Date: Tue, 07 Apr 2026 08:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.726056
- Title: INTERACT: An AI-Driven Extended Reality Framework for Accesible Communication Featuring Real-Time Sign Language Interpretation and Emotion Recognition
- Title(参考訳): InterACT: リアルタイム手話解釈と感情認識を備えたアクセシブルコミュニケーションのためのAI駆動型拡張現実感フレームワーク
- Authors: Nikolaos D. Tantaroudas, Andrew J. McCracken, Ilias Karachalios, Evangelos Papatheou,
- Abstract要約: 本稿ではAI駆動型XRプラットフォームであるInterACT(Inclusive Networking for Translation and Embodied Real-Time Augmented Communication Tool)を提案する。
3Dアバターによるリアルタイム音声テキスト変換、国際手話(ISL)レンダリング、多言語翻訳、感情認識を没入型仮想環境に統合する。
調査では、ユーザの満足度は92%、転写精度は85%以上、感情検出精度は90%だった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video conferencing has become central to professional collaboration, yet most platforms offer limited support for deaf, hard-of-hearing, and multilingual users. The World Health Organisation estimates that over 430 million people worldwide require rehabilitation for disabling hearing loss, a figure projected to exceed 700 million by 2050. Conventional accessibility measures remain constrained by high costs, limited availability, and logistical barriers, while Extended Reality (XR) technologies open new possibilities for immersive and inclusive communication. This paper presents INTERACT (Inclusive Networking for Translation and Embodied Real-Time Augmented Communication Tool), an AI-driven XR platform that integrates real-time speech-to-text conversion, International Sign Language (ISL) rendering through 3D avatars, multilingual translation, and emotion recognition within an immersive virtual environment. Built on the CORTEX2 framework and deployed on Meta Quest 3 headsets, INTERACT combines Whisper for speech recognition, NLLB for multilingual translation, RoBERTa for emotion classification, and Google MediaPipe for gesture extraction. Pilot evaluations were conducted in two phases, first with technical experts from academia and industry, and subsequently with members of the deaf community. The trials reported 92% user satisfaction, transcription accuracy above 85%, and 90% emotion-detection precision, with a mean overall experience rating of 4.6 out of 5.0 and 90% of participants willing to take part in further testing. The results highlight strong potential for advancing accessibility across educational, cultural, and professional settings. An extended version of this work, including full pilot data and implementation details, has been published as an Open Research Europe article [Tantaroudas et al., 2026a].
- Abstract(参考訳): ビデオ会議はプロのコラボレーションの中心になっているが、ほとんどのプラットフォームは聴覚障害、難聴、多言語ユーザーを限定的にサポートしている。
世界保健機関(WHO)は、世界中の4億3000万人が難聴のリハビリを必要としており、2050年までに7億人を超えると予測している。
従来のアクセシビリティ対策は、高コスト、限られた可用性、論理的障壁によって制約されているが、拡張現実(XR)技術は、没入的かつ包括的コミュニケーションの新たな可能性を開く。
本稿では、リアルタイム音声テキスト変換を統合したAI駆動型XRプラットフォームであるInterACT(Inclusive Networking for Translation and Embodied Real-Time Augmented Communication Tool)について、3次元アバターによる国際手話(ISL)レンダリング、多言語翻訳、および没入型仮想環境における感情認識について述べる。
CORTEX2フレームワーク上に構築され、Meta Quest 3ヘッドセット上にデプロイされるInteractは、音声認識用のWhisper、多言語翻訳用のNLLB、感情分類用のRoBERTa、ジェスチャー抽出用のGoogle MediaPipeを組み合わせている。
パイロット評価は2段階に分けて行われ、まず学界と産業界からの技術専門家、次いで聴覚障害者コミュニティのメンバーが行った。
試験では、ユーザーの満足度が92%、転写精度が85%以上、感情検出精度が90%と報告された。
この結果は、教育、文化、専門的な環境にまたがってアクセシビリティを向上する強い可能性を浮き彫りにしている。
この研究の完全なパイロットデータと実装の詳細を含む拡張版がOpen Research Europeの記事[Tantaroudas et al , 2026a]として公開された。
関連論文リスト
- AI-Driven Modular Services for Accessible Multilingual Education in Immersive Extended Reality Settings: Integrating Speech Processing, Translation, and Sign Language Rendering [0.0]
この作業では、6つのAIサービス、OpenAI Whisperによる自動音声認識、Meta NLLBによる多言語翻訳、AWS Pollyを使用した音声合成、RoBERTaによる感情分類、flan t5base Samsumによる対話要約、Google MediaPipeによる国際署名レンダリングなど、モジュール化されたプラットフォームを導入している。
論文 参考訳(メタデータ) (2026-04-07T08:35:53Z) - OmniMER: Indonesian Multimodal Emotion Recognition via Auxiliary-Enhanced LLM Adaptation [22.057449976327423]
IndoMERはインドネシア初のマルチモーダル感情認識ベンチマークである。
203人の話者による1,944の動画セグメントで、時間順にテキスト、オーディオ、視覚アノテーションが7つの感情カテゴリーにまたがっている。
OmniMER(OmniMER)は3つのモーダル固有認識タスクを通して感情認識を強化する多モーダル適応フレームワークである。
論文 参考訳(メタデータ) (2025-12-22T13:23:55Z) - Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。
自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。
ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文 参考訳(メタデータ) (2025-11-12T19:48:09Z) - The ML-SUPERB 2.0 Challenge: Towards Inclusive ASR Benchmarking for All Language Varieties [107.57160730151975]
我々は200以上の言語、アクセント、方言のデータからなる新しいテストスイートを構築し、SOTA多言語音声モデルを評価する。
その結果, LIDの精度は23%, CERは18%向上した。
アクセントと方言のデータでは、最も良い提出は30.2%低いCERと15.7%高いLIDの精度を得た。
論文 参考訳(メタデータ) (2025-09-08T18:42:36Z) - Real-Time Sign Language Gestures to Speech Transcription using Deep Learning [0.0]
本研究は,手話のジェスチャーをテキストおよび可聴音声に変換するために,高度なディープラーニング技術を活用するリアルタイム支援技術ソリューションを提案する。
Sign Language MNISTデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)を使用することで、システムはWebカメラを介してキャプチャされた手の動きを正確に分類する。
論文 参考訳(メタデータ) (2025-08-18T08:25:18Z) - Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice [52.747242157396315]
同時解釈 (SI) は、翻訳業界における最強のフロンティアの1つである。
Seed-LiveInterpret 2.0は、音声のクローン機能を備えた高忠実で低レイテンシな音声音声合成を実現するエンドツーエンドのSIモデルである。
論文 参考訳(メタデータ) (2025-07-23T14:07:41Z) - Optimizing Multilingual Text-To-Speech with Accents & Emotions [0.0]
本稿では,アクセントを付加した新しいTSアーキテクチャを提案する。
本稿では,言語固有の音素アライメント型エンコーダ-デコーダアーキテクチャを統合することで,Parler-TTSモデルを拡張した。
テストでは、アクセント精度が23.7%改善し、ネイティブリスナーによる感情認識精度が85.3%向上した。
論文 参考訳(メタデータ) (2025-06-19T13:35:05Z) - Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - SUTRA: Scalable Multilingual Language Model Architecture [5.771289785515227]
我々は50以上の言語でテキストの理解、推論、生成が可能な多言語大言語モデルアーキテクチャSUTRAを紹介する。
広範な評価により、SUTRA は GPT-3.5 や Llama2 といった既存のモデルを 20-30% 上回って、主要なMultitask Language Understanding (MMLU) ベンチマークを上回ります。
以上の結果から,SUTRAは多言語モデル機能において重要なギャップを埋めるだけでなく,AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することが示唆された。
論文 参考訳(メタデータ) (2024-05-07T20:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。