論文の概要: AMAVA: Adaptive Motion-Aware Video-to-Audio Framework for Visually-Impaired Assistance
- arxiv url: http://arxiv.org/abs/2604.23909v1
- Date: Sun, 26 Apr 2026 23:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.675017
- Title: AMAVA: Adaptive Motion-Aware Video-to-Audio Framework for Visually-Impaired Assistance
- Title(参考訳): AMAVA:視覚障害者支援のための適応型モーション対応ビデオ・ツー・オーディオフレームワーク
- Authors: Benjamin Klein, Kazi Ruslan Rahman, Sanchita Ghose,
- Abstract要約: AMAVAは,モバイル機器の映像を文脈的に関連した音響効果やテキスト音声記述に変換する,新しいリアルタイムビデオ音声合成フレームワークである。
静的環境において、AMAVAは状況認識のための音声シーン記述を生成する。
高移動環境では、音声による危険警報や環境音の影響など、音の手がかりを届けることによって安全性を優先する。
- 参考スコア(独自算出の注目度): 1.8199179205103146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigational aids for blind and low vision individuals struggle conveying dynamic real-world environments, leading to cognitive overload from continuous, undifferentiated feedback. We present AMAVA, a novel real-time video-to-audio framework that converts mobile device video into contextually relevant sound effects or text-to-speech descriptions. We propose a motion-aware pipeline using a lightweight AI classification model to distinguish between low and high-movement scenes followed by a real-time text-to-audio synthesis pipeline to enhance environmental perception more efficiently. In static environments, AMAVA generates spoken audio scene descriptions for situational awareness. In high-movement situations, it prioritizes safety by delivering sound cues, such as spoken hazard alerts and environmental sound effects. These audio outputs are produced by a decoder-only transformer-based vision-language model with mixture-of-experts and cross-modal attention for visual understanding, in conjunction with neural text-to-speech and natural sound synthesis networks. The proposed framework uses prompt-based caching and category-specific throttling to avoid auditory clutter and minimize latency. We present a comprehensive evaluation of the system, including a real-time navigation study comparing a white cane alone versus with AMAVA, that shows a significant increase in user confidence and perceived safety.
- Abstract(参考訳): 視覚障害者のナビゲーション支援は、動的現実世界環境の伝達に苦慮し、継続的な無差別なフィードバックからの認知的過負荷につながる。
AMAVAは,モバイル機器の映像を文脈的に関連した音響効果やテキスト音声記述に変換する,新しいリアルタイムビデオ音声合成フレームワークである。
環境認識をより効率的にするためのリアルタイムテキスト音声合成パイプラインにより、低音と高音のシーンを区別するために、軽量なAI分類モデルを用いた動き認識パイプラインを提案する。
静的環境において、AMAVAは状況認識のための音声シーン記述を生成する。
高移動環境では、音声による危険警報や環境音の影響など、音の手がかりを届けることによって安全性を優先する。
これらの音声出力は、ニューラルテキスト音声合成ネットワークと自然音声合成ネットワークを併用し、デコーダのみのトランスフォーマーベースの視覚言語モデルによって生成される。
提案するフレームワークでは,プロンプトベースのキャッシュとカテゴリ固有のスロットリングを使用して,聴覚的クラッタを回避し,レイテンシを最小限に抑える。
本研究では,白杖単独とAMAVAとの比較を行うリアルタイムナビゲーション研究を含むシステムに関する総合的な評価を行い,利用者の信頼度と安全性を著しく向上させることを示す。
関連論文リスト
- Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection [22.306688903148046]
大規模な音声言語モデル(LALM)は、音声とテキストを密に統合することでインテリジェントな音声インタラクションをパワーアップする。
textitAudioHijackは,ハイジャックLALMに対して,文脈に依存しない,知覚不能な音声を生成するフレームワークである。
13種類のLALM実験では、6つのカテゴリーで一貫したハイジャックが行われた。
論文 参考訳(メタデータ) (2026-04-16T04:22:11Z) - Towards the Vision-Sound-Language-Action Paradigm: The HEAR Framework for Sound-Centric Manipulation [26.766367856312694]
本稿では,視覚・ストリーミング音声・言語・プロプライエセプションを考慮した連続制御パラダイムとして,VSLA(Vision-Sound-Language-Action)を定式化した。
i) 実行ギャップをまたいだコンパクトで因果的な音声コンテキストを維持するためのストリーミングヒストリザ、(ii) オームニ基礎モデルから多感覚入力を推論するエンビジョンタ、(iii) オーディオワールドモデルとして定式化されたアドバンサ、そして(iv) 流れを予測して時間的ダイナミクスを学ぶための、VSLAフレームワークであるHEARを紹介する。
論文 参考訳(メタデータ) (2026-03-17T03:22:30Z) - Semantics-Aware Human Motion Generation from Audio Instructions [25.565742045932236]
本稿では,音声のセマンティクスに適合した動作を生成するための条件付け入力として音声信号を使用する新しいタスクについて検討する。
本稿では,メモリ検索型アテンションモジュールによって強化されたマスク付き生成変換器を用いて,スパースおよび長大な音声入力を処理するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-29T14:16:27Z) - Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。
音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文 参考訳(メタデータ) (2025-04-08T07:23:28Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Sonic: Shifting Focus to Global Audio Perception in Portrait Animation [43.63279351897198]
発話顔生成の研究は、主に、顔の動きを同期させ、視覚的に魅力的で時間的に整合したアニメーションを作るという複雑さを探求する。
我々は,グローバルな音声知識を活用し,全体的な知覚を高めるために,Sonicと呼ばれる新しいパラダイムを提案する。
映像品質、時間的整合性、唇の同期精度、動きの多様性の点で、新しいオーディオ駆動のパラダイムが既存のSOTA手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-11-25T12:24:52Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。