論文の概要: "I Can See Forever!": Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments
- arxiv url: http://arxiv.org/abs/2505.04488v1
- Date: Wed, 07 May 2025 15:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.121772
- Title: "I Can See Forever!": Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments
- Title(参考訳): I can See Forever!」:視覚障害者支援のためのリアルタイムビデオLLMの評価
- Authors: Ziyi Zhang, Zhen Sun, Zongmin Zhang, Zifan Peng, Yuemeng Zhao, Zichun Wang, Zeren Luo, Ruiting Zuo, Xinlei He,
- Abstract要約: 視覚障害者は現在、大規模に活動しており、日々の活動は彼らにとって重大な課題となっている。
多くの研究は、視覚障害者を支援するために、大きな言語と視覚言語モデルを用いており、静的コンテンツに重点を置いており、リアルタイムの認識のニーズを満たすことができない。
より効果的な知的支援を提供するためには、高度な視覚理解技術を組み込むことが不可欠である。
- 参考スコア(独自算出の注目度): 17.702424914454415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The visually impaired population, especially the severely visually impaired, is currently large in scale, and daily activities pose significant challenges for them. Although many studies use large language and vision-language models to assist the blind, most focus on static content and fail to meet real-time perception needs in dynamic and complex environments, such as daily activities. To provide them with more effective intelligent assistance, it is imperative to incorporate advanced visual understanding technologies. Although real-time vision and speech interaction VideoLLMs demonstrate strong real-time visual understanding, no prior work has systematically evaluated their effectiveness in assisting visually impaired individuals. In this work, we conduct the first such evaluation. First, we construct a benchmark dataset (VisAssistDaily), covering three categories of assistive tasks for visually impaired individuals: Basic Skills, Home Life Tasks, and Social Life Tasks. The results show that GPT-4o achieves the highest task success rate. Next, we conduct a user study to evaluate the models in both closed-world and open-world scenarios, further exploring the practical challenges of applying VideoLLMs in assistive contexts. One key issue we identify is the difficulty current models face in perceiving potential hazards in dynamic environments. To address this, we build an environment-awareness dataset named SafeVid and introduce a polling mechanism that enables the model to proactively detect environmental risks. We hope this work provides valuable insights and inspiration for future research in this field.
- Abstract(参考訳): 視覚障害のある人、特に視覚障害のある人は、現在大規模に活動しており、日々の活動は彼らにとって重大な課題となっている。
多くの研究は、視覚障害者を支援するために大きな言語と視覚言語モデルを使用しているが、ほとんどの研究は静的コンテンツに焦点を当てており、日々の活動のような動的で複雑な環境におけるリアルタイムな認識のニーズを満たすことができない。
より効果的な知的支援を提供するためには、高度な視覚理解技術を組み込むことが不可欠である。
リアルタイムの視覚と音声の相互作用 ビデオLLMは、強いリアルタイムの視覚的理解を示すが、視覚障害のある個人を支援する上での彼らの効果を体系的に評価する以前の研究は存在しない。
本研究では,このような評価を初めて実施する。
まず,視覚障害者のための3つの支援課題,基本スキル,ホームライフタスク,社会生活タスクを対象とするベンチマークデータセット(VisAssistDaily)を構築した。
その結果, GPT-4oが最もタスク成功率が高いことがわかった。
次に、閉世界とオープンワールドの両方のシナリオでモデルを評価するためのユーザスタディを行い、補助的な文脈にビデオLLMを適用するという実践的な課題について検討する。
私たちが認識している重要な問題のひとつは、現在のモデルが動的環境における潜在的な危険を認識するのに直面する困難さです。
これを解決するために,SafeVidという環境認識データセットを構築し,環境リスクを積極的に検出するポーリング機構を導入する。
この研究が今後の研究に貴重な洞察とインスピレーションを与えてくれることを願っています。
関連論文リスト
- V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - Visual Language Models show widespread visual deficits on neuropsychological tests [0.0]
神経心理学のツールキットを用いて3つの最先端ビジュアル言語モデル(VLM)の能力を評価する。
臨床的に有意と思われる低位・中位の視覚能力に広範な欠陥がみられた。
これらの選択的欠陥は、検証されたテストバッテリーを通してプロファイルされ、人間には明示的な訓練を必要としない基礎的な視覚概念を発達させることなく、人工知能が複雑な物体認識を達成できることを示唆している。
論文 参考訳(メタデータ) (2025-04-15T01:04:56Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Evaluating the Effectiveness of Video Anomaly Detection in the Wild: Online Learning and Inference for Real-world Deployment [2.1374208474242815]
Video Anomaly Detection (VAD) は、監視から医療まで幅広い応用の鍵となる、ビデオストリームにおける異常な活動を特定する。
実生活環境でのVADに取り組むことは、人間の行動の動的な性質、環境の変化、ドメインシフトによって大きな課題となる。
オンライン学習は、モデルを新しい情報に継続的に適応させることによって、この問題を軽減するための潜在的戦略である。
論文 参考訳(メタデータ) (2024-04-29T14:47:32Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。