論文の概要: Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired
- arxiv url: http://arxiv.org/abs/2508.03651v1
- Date: Tue, 05 Aug 2025 16:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.091514
- Title: Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired
- Title(参考訳): ブラインドや視覚障害者のリアルタイム支援のためのチャットGPTライブビデオチャットにおけるギャップの探索
- Authors: Ruei-Che Chang, Rosiana Natalie, Wenqian Xu, Jovan Zheng Feng Yap, Anhong Guo,
- Abstract要約: 視力障害8例(BVI)を主訴に来院した。
この結果から,現在のライブビデオAIは静的なシーンのガイダンスや回答を効果的に提供するが,ダイナミックな状況において必要不可欠なライブ記述の提供には不十分であることが示唆された。
我々は、実世界の利用に付加的なセンシング機能を導入することを含む、補助的なビデオAIエージェントへの影響について論じる。
- 参考スコア(独自算出の注目度): 10.648018999640758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large multimodal models have provided blind or visually impaired (BVI) individuals with new capabilities to interpret and engage with the real world through interactive systems that utilize live video feeds. However, the potential benefits and challenges of such capabilities to support diverse real-world assistive tasks remain unclear. In this paper, we present findings from an exploratory study with eight BVI participants. Participants used ChatGPT's Advanced Voice with Video, a state-of-the-art live video AI released in late 2024, in various real-world scenarios, from locating objects to recognizing visual landmarks, across unfamiliar indoor and outdoor environments. Our findings indicate that current live video AI effectively provides guidance and answers for static visual scenes but falls short in delivering essential live descriptions required in dynamic situations. Despite inaccuracies in spatial and distance information, participants leveraged the provided visual information to supplement their mobility strategies. Although the system was perceived as human-like due to high-quality voice interactions, assumptions about users' visual abilities, hallucinations, generic responses, and a tendency towards sycophancy led to confusion, distrust, and potential risks for BVI users. Based on the results, we discuss implications for assistive video AI agents, including incorporating additional sensing capabilities for real-world use, determining appropriate intervention timing beyond turn-taking interactions, and addressing ecological and safety concerns.
- Abstract(参考訳): 大規模マルチモーダルモデルの最近の進歩は、視覚障害者(BVI)の個人に、ライブビデオフィードを利用するインタラクティブシステムを通じて、現実世界を解釈し、関与する新たな能力を与えている。
しかし、そのような能力の潜在的な利点と課題は、様々な現実世界の補助タスクをサポートすることは、まだ不明である。
本稿では,8人のBVI参加者による探索的研究から得られた知見を報告する。
参加者はChatGPTのAdvanced Voice with Videoを使って、2024年末にリリースされた最先端のライブビデオAIを、オブジェクトの配置から視覚的なランドマークの認識に至るまで、さまざまな現実のシナリオで使用した。
この結果から,現在のライブビデオAIは静的なシーンのガイダンスや回答を効果的に提供するが,ダイナミックな状況において必要不可欠なライブ記述の提供には不十分であることが示唆された。
空間情報や距離情報の不正確さにもかかわらず、参加者は提供された視覚情報を利用して移動戦略を補完した。
このシステムは、高品質な音声対話によって人間らしく認識されるが、ユーザの視覚能力、幻覚、一般的な反応、および梅毒に対する傾向の仮定は、BVIユーザにとって混乱、不信、潜在的なリスクを引き起こした。
この結果から,実世界利用のための追加センシング機能の導入,ターンテイクインタラクション以上の適切な介入タイミングの決定,生態・安全問題への対処など,補助的ビデオAIエージェントの意義について議論した。
関連論文リスト
- "I Can See Forever!": Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments [17.702424914454415]
視覚障害者は現在、大規模に活動しており、日々の活動は彼らにとって重大な課題となっている。
多くの研究は、視覚障害者を支援するために、大きな言語と視覚言語モデルを用いており、静的コンテンツに重点を置いており、リアルタイムの認識のニーズを満たすことができない。
より効果的な知的支援を提供するためには、高度な視覚理解技術を組み込むことが不可欠である。
論文 参考訳(メタデータ) (2025-05-07T15:03:16Z) - A Large Vision-Language Model based Environment Perception System for Visually Impaired People [3.787034006536037]
本稿では,LVLMに基づく環境認識システムを提案する。
このシステムは視覚障害者が周囲の環境を効果的に知覚するのに役立つ。
論文 参考訳(メタデータ) (2025-04-25T02:46:22Z) - AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。
大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文 参考訳(メタデータ) (2024-12-28T07:26:39Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - VisBuddy -- A Smart Wearable Assistant for the Visually Challenged [0.0]
VisBuddyは音声ベースのアシスタントで、ユーザーは音声コマンドで特定のタスクを実行することができる。
ユーザの周囲を記述するための画像キャプション技術、ユーザの視点でテキストを読み取るための光学文字認識(OCR)、部屋内のオブジェクトを検索して見つけるためのオブジェクト検出、最新のニュースを提供するためのWebスクレイピングを使用する。
論文 参考訳(メタデータ) (2021-08-17T17:15:23Z) - AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文 参考訳(メタデータ) (2020-10-22T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。