論文の概要: Not There Yet: Evaluating Vision Language Models in Simulating the Visual Perception of People with Low Vision
- arxiv url: http://arxiv.org/abs/2508.10972v1
- Date: Thu, 14 Aug 2025 16:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.624804
- Title: Not There Yet: Evaluating Vision Language Models in Simulating the Visual Perception of People with Low Vision
- Title(参考訳): いまだにない:低視力者の視覚知覚のシミュレーションにおける視覚言語モデルの評価
- Authors: Rosiana Natalie, Wenqian Xu, Ruei-Che Chang, Rada Mihalcea, Anhong Guo,
- Abstract要約: 我々は、視覚言語モデル(VLM)が、画像の解釈において、低視野個体の視覚知覚をシミュレートできる範囲を評価する。
まず、40人の低ビジョン参加者を対象にした調査を通じて、ベンチマークデータセットをコンパイルする。
- 参考スコア(独自算出の注目度): 30.242033318460077
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Advances in vision language models (VLMs) have enabled the simulation of general human behavior through their reasoning and problem solving capabilities. However, prior research has not investigated such simulation capabilities in the accessibility domain. In this paper, we evaluate the extent to which VLMs can simulate the vision perception of low vision individuals when interpreting images. We first compile a benchmark dataset through a survey study with 40 low vision participants, collecting their brief and detailed vision information and both open-ended and multiple-choice image perception and recognition responses to up to 25 images. Using these responses, we construct prompts for VLMs (GPT-4o) to create simulated agents of each participant, varying the included information on vision information and example image responses. We evaluate the agreement between VLM-generated responses and participants' original answers. Our results indicate that VLMs tend to infer beyond the specified vision ability when given minimal prompts, resulting in low agreement (0.59). The agreement between the agent' and participants' responses remains low when only either the vision information (0.59) or example image responses (0.59) are provided, whereas a combination of both significantly increase the agreement (0.70, p < 0.0001). Notably, a single example combining both open-ended and multiple-choice responses, offers significant performance improvements over either alone (p < 0.0001), while additional examples provided minimal benefits (p > 0.05).
- Abstract(参考訳): 視覚言語モデル(VLM)の進歩は、その推論と問題解決能力を通じて、一般的な人間の行動のシミュレーションを可能にした。
しかし、以前の研究ではアクセシビリティ領域におけるそのようなシミュレーション能力について研究されていない。
本稿では,VLMが画像の解釈において,視力の低い個体の視覚知覚をシミュレートできる範囲を評価する。
筆者らはまず,40名の低視力被験者による調査調査を通じて,まずベンチマークデータセットをコンパイルし,その簡潔かつ詳細な視覚情報と,最大25枚の画像に対するオープンエンドおよびマルチチョイス画像認識および認識応答を収集した。
これらの反応を用いて、各参加者のシミュレーションエージェントを作成するためのVLM(GPT-4o)のプロンプトを構築し、視覚情報やサンプル画像応答に関する情報を変化させる。
VLM生成反応と参加者の回答との一致を評価した。
以上の結果から,VLMは最小限のプロンプトを与えると,特定の視覚能力を超えて推測される傾向があり,低一致(0.59。
エージェントと参加者の反応の一致は、視情報(0.59)または例画像応答(0.59)が提供される場合にのみ低いままであり、両者の組み合わせは、その一致を著しく増加させる(0.70, p < 0.0001)。
特に、オープンエンドとマルチチョイスの両方を組み合わせた単一の例は、単独で(p < 0.0001)大幅なパフォーマンス向上をもたらし、追加の例は最小限の利点(p > 0.05)を提供する。
関連論文リスト
- COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark [3.5018278981067685]
COREVQA (Crowd Observations and Reasoning Entailment) は5608の画像と合成生成された真/偽のステートメントペアのベンチマークである。
以上の結果から,トップパフォーマンスのVLMでも80%以下で精度が向上し,他のモデルも大幅に悪化した。
論文 参考訳(メタデータ) (2025-07-17T04:47:47Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。