論文の概要: Audo-Sight: AI-driven Ambient Perception Across Edge-Cloud for Blind and Low Vision Users
- arxiv url: http://arxiv.org/abs/2603.13668v1
- Date: Sat, 14 Mar 2026 00:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.328022
- Title: Audo-Sight: AI-driven Ambient Perception Across Edge-Cloud for Blind and Low Vision Users
- Title(参考訳): Audo-Sight: ブラインドとロービジョンのユーザのためのエッジクラウド全体にわたるAI駆動のアンビエント知覚
- Authors: Jacob Bradshaw, Mohsen Riahi Alam, Bhanuja Ainary, Minseo Kim, Mohsen Amini Salehi,
- Abstract要約: Audo-Sightは、BlindとLow-Vision(BLV)の個人が音声による対話を通じて周囲を知覚できるAI駆動の補助システムである。
Audo-Sightは専門家と汎用AIエージェントのセットを採用しており、それぞれがエッジとクラウドに分散した専用の処理パイプラインによってサポートされている。
Response Fusion Engineは、高速エッジ応答をより正確なクラウド出力と融合し、BLVユーザにタイムリーかつ高精度な応答を保証する。
- 参考スコア(独自算出の注目度): 2.8606253011743505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in assistive technologies, Blind and Low-Vision (BLV) individuals continue to face challenges in understanding their surroundings. Delivering concise, useful, and timely scene descriptions for ambient perception remains a long-standing accessibility problem. To address this, we introduce Audo-Sight, an AI-driven assistive system across Edge-Cloud that enables BLV individuals to perceive their surroundings through voice-based conversational interaction. Audo-Sight employs a set of expert and generic AI agents, each supported by dedicated processing pipelines distributed across edge and cloud. It analyzes user queries by considering urgency and contextual information to infer the user intent and dynamically route each query, along with a scene frame, to the most suitable pipeline. In cases where users require fast responses, the system simultaneously leverages edge and cloud processing pipelines. The edge generates an initial response quickly, while the cloud provides more detailed and accurate information. To overcome the challenge of seamlessly combining these outputs, we introduce the Response Fusion Engine, which fuses the fast edge response with the more accurate cloud output, ensuring timely and high-accuracy response for the BLV users. Systematic evaluation shows that Audo-Sight delivers speech output around 80% faster for urgent tasks and generates complete responses approximately 50% faster across all tasks compared to a commercial cloud-based solution -- highlighting the effectiveness of our system across edge-cloud. Human evaluation of Audo-Sight shows that it is the preferred choice over GPT-5 for 62% of BLV participants with another 23% stating both perform comparably.
- Abstract(参考訳): 補助技術の進歩にもかかわらず、ブラインドとロービジョン(BLV)の個人は周囲を理解するための課題に直面し続けている。
環境認識のための簡潔で有用でタイムリーなシーン記述を提供することは、長年にわたるアクセシビリティの問題である。
この問題を解決するために、我々は、エッジクラウドを横断するAI駆動の補助システムであるAudo-Sightを紹介した。
Audo-Sightは専門家と汎用AIエージェントのセットを採用しており、それぞれがエッジとクラウドに分散した専用の処理パイプラインによってサポートされている。
ユーザの意図を推測する緊急性やコンテキスト情報を考慮してユーザクエリを分析し、各クエリをシーンフレームとともに、最も適切なパイプラインに動的にルーティングする。
ユーザが迅速なレスポンスを必要とする場合、システムはエッジとクラウド処理パイプラインを同時に活用する。
エッジはすぐに初期応答を生成し、クラウドはより詳細で正確な情報を提供する。
これらの出力をシームレスに組み合わせることの難しさを克服するために、高速エッジ応答とより正確なクラウド出力を融合し、BLVユーザにタイムリーかつ高精度な応答を保証するResponse Fusion Engineを導入する。
システム評価は、Audo-Sightが緊急タスクで約80%高速な音声出力を提供し、商用クラウドベースのソリューションと比較して全タスクで約50%高速な完全なレスポンスを生成することを示している。
Audo-Sight のヒト評価は GPT-5 よりも BLV の 62% で好適な選択であり,さらに 23% では両者の相違が認められた。
関連論文リスト
- Say It My Way: Exploring Control in Conversational Visual Question Answering with Blind Users [8.54162000547885]
本稿では,視覚的質問応答(VQA)ツールを現実の会話型VQAシステムでカスタマイズする方法を示す。
このシステムは冗長性制御を欠き、空間と時間の距離を推定し、到達不能な画像フレーミングに依存し、カメラのガイダンスはほとんど提供されなかった。
参加者がこれらの制限を回避するのに、プロンプトエンジニアリングなどのカスタマイズ技術がどのように役立つかについて論じる。
論文 参考訳(メタデータ) (2026-02-18T22:44:43Z) - Bridging the Perception Gap: A Lightweight Coarse-to-Fine Architecture for Edge Audio Systems [10.143590597259792]
CoFi-Agentはエッジサーバとゲートウェイをターゲットにしたハイブリッドアーキテクチャである。
高速な局所認識を行い、不確実性が検出された場合にのみ条件付き法医学的洗練をトリガーする。
MMARのベンチマークでは、CoFi-Agentは精度を27.20%から53.60%に改善し、常にオンのパイプラインよりも精度と効率のトレードオフを実現している。
論文 参考訳(メタデータ) (2026-01-22T05:57:25Z) - Vision-Language Models on the Edge for Real-Time Robotic Perception [0.22940141855172028]
6G内のエッジインテリジェンス、特にOpen RANとMulti- Access Edge Computingは、これらの課題に対処するための経路を提供する。
本研究は,Unitree G1ヒューマノイドロボットを具現化したテストベッドとして,ORAN/MECインフラストラクチャ上でのビジョンランゲージモデルの展開について検討する。
その結果,エッジデプロイメントはクラウドに近い精度を保ちながら,エンドツーエンドのレイテンシを5%削減できることがわかった。
論文 参考訳(メタデータ) (2026-01-21T12:09:48Z) - Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。
本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。
提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T14:18:20Z) - Perceive, Reflect and Understand Long Video: Progressive Multi-Granular Clue Exploration with Interactive Agents [60.095739427926524]
時間的およびスパースなタスク関連情報を特徴とするロングビデオは、AIシステムに重大な推論課題を生じさせる。
人間のプログレッシブな視覚認知にインスパイアされ、我々はCogniGPTを効率的で信頼性の高い長時間ビデオ理解のために提案する。
論文 参考訳(メタデータ) (2025-09-29T15:42:55Z) - Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired [10.648018999640758]
視力障害8例(BVI)を主訴に来院した。
この結果から,現在のライブビデオAIは静的なシーンのガイダンスや回答を効果的に提供するが,ダイナミックな状況において必要不可欠なライブ記述の提供には不十分であることが示唆された。
我々は、実世界の利用に付加的なセンシング機能を導入することを含む、補助的なビデオAIエージェントへの影響について論じる。
論文 参考訳(メタデータ) (2025-08-05T16:59:02Z) - LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant [49.541465732827504]
また,「Fast & Slow Video-Language Thinker」は,リアルタイム・能動的・時間的・文脈的・正確な応答を実現するオンネバイドアシスト「LION-FS」である。
論文 参考訳(メタデータ) (2025-03-05T16:52:34Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。