論文の概要: Beyond Descriptions: A Generative Scene2Audio Framework for Blind and Low-Vision Users to Experience Vista Landscapes
- arxiv url: http://arxiv.org/abs/2603.27295v1
- Date: Sat, 28 Mar 2026 14:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.884426
- Title: Beyond Descriptions: A Generative Scene2Audio Framework for Blind and Low-Vision Users to Experience Vista Landscapes
- Title(参考訳): Beyond Descriptions:Vistaのランドスケープを体験するためのBlind and Low-Visionユーザのための生成Scene2Audioフレームワーク
- Authors: Chitralekha Gupta, Jing Peng, Ashwin Ram, Shreyas Sridhar, Christophe Jouffrais, Suranga Nanayakkara,
- Abstract要約: 提案するScene2Audioフレームワークは,心理音響学から情報を得た生成モデルを用いて,理解しやすく,楽しめる非言語音声を生成する。
我々の研究は、純粋に記述的な援助を超えて、視覚と聴覚のシーン知覚のギャップを埋める。
- 参考スコア(独自算出の注目度): 23.925773831218027
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current scene perception tools for Blind and Low Vision (BLV) individuals rely on spoken descriptions but lack engaging representations of visually pleasing distant environmental landscapes (Vista spaces). Our proposed Scene2Audio framework generates comprehensible and enjoyable nonverbal audio using generative models informed by psychoacoustics, and principles of scene audio composition. Through a user study with 11 BLV participants, we found that combining the Scene2Audio sounds with speech creates a better experience than speech alone, as the sound effects complement the speech making the scene easier to imagine. A mobile app "in-the-wild" study with 7 BLV users for more than a week further showed the potential of Scene2Audio in enhancing outdoor scene experiences. Our work bridges the gap between visual and auditory scene perception by moving beyond purely descriptive aids, addressing the aesthetic needs of BLV users.
- Abstract(参考訳): 現在のBlind and Low Vision(BLV)個人のためのシーン認識ツールは、音声による記述に依存しているが、視覚的に離れた環境景観(Vista空間)を満足させるような表現は欠如している。
提案するScene2Audioフレームワークは、心理音響学から情報を得た生成モデルとシーン音声合成の原理を用いて、理解しやすく楽しめる非言語音声を生成する。
11人のBLV参加者によるユーザスタディにより、Scene2Audioの音声と音声を組み合わせることで、音声効果が音声を補完するので、音声単独よりも優れた体験が得られることがわかった。
7人のBLVユーザーを対象に1週間以上調査したモバイルアプリは、アウトドアシーン体験を向上するScene2Audioの可能性を示している。
BLV利用者の美的ニーズに対処するため、純粋に記述的な援助を超えて視覚と聴覚のシーン知覚のギャップを埋める作業を行った。
関連論文リスト
- Learning to Hear by Seeing: It's Time for Vision Language Models to Understand Artistic Emotion from Sight and Sound [21.4061944104446]
芸術は視覚的要素と聴覚的要素のジョイントデザインを通じて感情を伝えるが、初期の作品のほとんどは人間中心または単一モダリティである。
本稿では,VLMを限定的な事前学習で視聴する2段階のフレームワークであるVision Anchored Audio-Visual Emotion LLM(VAEmotionLLM)を紹介する。
VAEmotionLLMはArtEmoBenchmarkの最先端の結果を達成し、オーディオのみ、ビジュアルのみ、オーディオ視覚ベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-15T07:42:02Z) - A Large Vision-Language Model based Environment Perception System for Visually Impaired People [3.787034006536037]
本稿では,LVLMに基づく環境認識システムを提案する。
このシステムは視覚障害者が周囲の環境を効果的に知覚するのに役立つ。
論文 参考訳(メタデータ) (2025-04-25T02:46:22Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。