論文の概要: Sanvaad: A Multimodal Accessibility Framework for ISL Recognition and Voice-Based Interaction
- arxiv url: http://arxiv.org/abs/2512.06485v1
- Date: Sat, 06 Dec 2025 16:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.379136
- Title: Sanvaad: A Multimodal Accessibility Framework for ISL Recognition and Voice-Based Interaction
- Title(参考訳): Sanvaad: ISL認識と音声によるインタラクションのためのマルチモーダルアクセシビリティフレームワーク
- Authors: Kush Revankar, Shreyas Deshpande, Araham Sayeed, Ansh Tandale, Sarika Bobde,
- Abstract要約: Sanvaadは、リアルタイム双方向通信をサポートするために設計された軽量なマルチモーダルアクセシビリティフレームワークである。
難聴者のために、SanvaadはMediaPipeのランドマーク上に構築されたISL認識モジュールを含んでいる。
視覚障害者向けに、多言語音声認識、テキスト要約、テキスト音声生成を統合したスクリーンフリー音声インタフェースを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication between deaf users, visually im paired users, and the general hearing population often relies on tools that support only one direction of interaction. To address this limitation, this work presents Sanvaad, a lightweight multimodal accessibility framework designed to support real time, two-way communication. For deaf users, Sanvaad includes an ISL recognition module built on MediaPipe landmarks. MediaPipe is chosen primarily for its efficiency and low computational load, enabling the system to run smoothly on edge devices without requiring dedicated hardware. Spoken input from a phone can also be translated into sign representations through a voice-to-sign component that maps detected speech to predefined phrases and produces corresponding GIFs or alphabet-based visualizations. For visually impaired users, the framework provides a screen free voice interface that integrates multilingual speech recognition, text summarization, and text-to-speech generation. These components work together through a Streamlit-based interface, making the system usable on both desktop and mobile environments. Overall, Sanvaad aims to offer a practical and accessible pathway for inclusive communication by combining lightweight computer vision and speech processing tools within a unified framework.
- Abstract(参考訳): 聴覚障害者、視覚障害者、聴覚障害者の間でのコミュニケーションは、1つの方向のみをサポートするツールに依存していることが多い。
この制限に対処するため、この研究は、リアルタイム双方向通信をサポートするために設計された軽量なマルチモーダルアクセシビリティフレームワークであるSanvaadを提示する。
難聴者のために、SanvaadはMediaPipeのランドマーク上に構築されたISL認識モジュールを含んでいる。
MediaPipeは、その効率性と計算負荷の低さから選択されており、専用のハードウェアを必要とせず、エッジデバイス上でスムーズに動作する。
携帯電話からの音声入力は、検出された音声を予め定義されたフレーズにマッピングし、対応するGIFやアルファベットベースの視覚化を生成するボイス・ツー・サインコンポーネントを通じて手話表現に変換することもできる。
視覚障害者向けに、多言語音声認識、テキスト要約、テキスト音声生成を統合したスクリーンフリー音声インタフェースを提供する。
これらのコンポーネントはStreamlitベースのインターフェースを通じて協調して動作し、システムはデスクトップとモバイルの両方で使用することができる。
全体として、Sanvaadは軽量なコンピュータビジョンと音声処理ツールを統合フレームワーク内で組み合わせることで、包括的コミュニケーションのための実用的でアクセスしやすい経路を提供することを目指している。
関連論文リスト
- SeeingSounds: Learning Audio-to-Visual Alignment via Text [15.011814561603964]
本稿では,音声,言語,視覚の相互作用を利用した画像生成のためのフレームワークであるSeeingSoundsを紹介する。
音声は凍結言語エンコーダを介して意味言語空間に投影され、視覚言語モデルを用いて文脈的に視覚領域に基底される。
このアプローチは認知神経科学にインスパイアされ、人間の知覚で観察される自然な相互関連を反映している。
論文 参考訳(メタデータ) (2025-10-10T18:42:50Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Real-Time Sign Language Gestures to Speech Transcription using Deep Learning [0.0]
本研究は,手話のジェスチャーをテキストおよび可聴音声に変換するために,高度なディープラーニング技術を活用するリアルタイム支援技術ソリューションを提案する。
Sign Language MNISTデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)を使用することで、システムはWebカメラを介してキャプチャされた手の動きを正確に分類する。
論文 参考訳(メタデータ) (2025-08-18T08:25:18Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Your voice is your voice: Supporting Self-expression through Speech Generation and LLMs in Augmented and Alternative Communication [9.812902134556971]
Speak Easeは、ユーザの表現性をサポートするための拡張的で代替的なコミュニケーションシステムである。
システムは、テキスト、音声、文脈の手がかりを含むマルチモーダル入力を、大きな言語モデルと統合する。
論文 参考訳(メタデータ) (2025-03-21T18:50:05Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。