論文の概要: How Blind and Low-Vision Individuals Prefer Large Vision-Language Model-Generated Scene Descriptions
- arxiv url: http://arxiv.org/abs/2502.14883v2
- Date: Sat, 13 Sep 2025 01:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:15.969066
- Title: How Blind and Low-Vision Individuals Prefer Large Vision-Language Model-Generated Scene Descriptions
- Title(参考訳): ブラインドとロービジョンの個人はどのようにして大視線モデルで生成されたシーン記述を優先するか
- Authors: Na Min An, Eunki Kim, Wan Ju Kang, Sangryul Kim, James Thorne, Hyunjung Shim,
- Abstract要約: LVLM(Large Vision-Language Models)はシーン記述の生成を約束するが,BLVユーザに対する有効性は未定である。
8人のBLV参加者とユーザスタディを行い、6種類のLVLM記述の好みを体系的に評価した。
彼らは恐怖を減らし、行動可能性を向上させるのに役立ったが、ユーザーの評価は、満足度と簡潔さの幅広いバリエーションを示した。
- 参考スコア(独自算出の注目度): 38.22472823480205
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For individuals with blindness or low vision (BLV), navigating complex environments can pose serious risks. Large Vision-Language Models (LVLMs) show promise for generating scene descriptions, but their effectiveness for BLV users remains underexplored. To address this gap, we conducted a user study with eight BLV participants to systematically evaluate preferences for six types of LVLM descriptions. While they helped to reduce fear and improve actionability, user ratings showed wide variation in sufficiency and conciseness. Furthermore, GPT-4o--despite its strong potential to refine descriptions--was not consistently preferred by participants. We use the insights obtained from the user study to build training data for building our new automatic evaluation metric that can capture BLV preferences effectively. Our findings underscore the urgent need for BLV-centered evaluation metrics and human-in-the-loop feedback to advance LVLM description quality for accessibility.
- Abstract(参考訳): 盲目または低視力(BLV)を持つ個人にとって、複雑な環境をナビゲートすることは深刻なリスクを引き起こす可能性がある。
LVLM(Large Vision-Language Models)はシーン記述の生成を約束するが,BLVユーザに対する有効性は未定である。
このギャップに対処するため,8人のBLV参加者を対象に6種類のLVLM記述の好みを体系的に評価した。
彼らは恐怖を減らし、行動可能性を向上させるのに役立ったが、ユーザーの評価は、満足度と簡潔さの幅広いバリエーションを示した。
さらに、GPT-4oは、説明を洗練させる強い可能性にもかかわらず、参加者は一貫して好まなかった。
ユーザスタディから得られた知見を用いて,BLVの選好を効果的に捉えることのできる,新たな自動評価指標を構築するためのトレーニングデータを構築する。
以上の結果から, BLV中心評価指標の緊急の必要性と, アクセシビリティのためのLVLM記述品質向上のためのHuman-in-the-loopフィードバックの必要性が示唆された。
関連論文リスト
- Boosting Visual Knowledge-Intensive Training for LVLMs Through Causality-Driven Visual Object Completion [25.84673296137996]
LVLM(Large Vision-Language Models)は近年大きな進歩を遂げている。
しかし、彼らのパフォーマンスは、深い視覚的知覚を必要とするタスクでは依然として不足している。
本稿では,新しい視覚的知識集約型タスクに基づく自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:54:49Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions [5.6629291915019975]
視覚言語モデル(VLM)が生み出す図形記述(ダイアグラム記述)を評価することを求める。
Sightationは、5kのダイアグラムと137kのサンプルからなるダイアグラム記述データセットのコレクションで、完成、選好、検索、質問応答、推論トレーニングの目的でリリースします。
論文 参考訳(メタデータ) (2025-03-17T16:52:46Z) - GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance [18.467461615621872]
視力低下と低視力(BLV)による世界22億人にとって、モビリティは依然として重要な課題である。
本稿では,22K画像記述ペアを含む新しいアクセシビリティ対応ガイドデータセットである GuideDogを紹介する。
また818個のサンプルのサブセットである GuideDogQA も開発した。
論文 参考訳(メタデータ) (2025-03-17T05:43:40Z) - Generating Contextually-Relevant Navigation Instructions for Blind and Low Vision People [9.503205949175966]
不慣れな環境をナビゲートすることは、盲目と低視(BLV)の個人にとって大きな課題となる。
キッチンを探索したり、屋外でナビゲートしたりするなど、さまざまなシナリオで画像と目標のデータセットを構築します。
論文 参考訳(メタデータ) (2024-07-11T06:40:36Z) - WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。
WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。
実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (2024-06-16T20:53:25Z) - B-AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Black-box Adversarial Visual-Instructions [73.97665608366447]
LVLM(Large Vision-Language Models)は、ユーザからの視覚的指示に応答する上で、大きな進歩を見せている。
画像とテキストを含むこれらの命令は、意図的および意図しない攻撃の両方に影響を受けやすい。
B-AVIBenchは,様々なブラックボックス・アドミラル・ビジュアル・インストラクションに直面する場合のLVLMのロバスト性を解析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models [86.85389322710674]
この研究は、LVLM(Large Vision-Language Models)の早期かつ総合的な評価を提示する。
LVLM-eHubの軽量版であるTiny LVLM-eHubを提案する。
視覚的知覚、視覚的知識獲得、視覚的推論、視覚的常識、物体幻覚、具体的知能の6つのカテゴリの体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-08-07T17:17:05Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。