論文の概要: Can LVLMs and Automatic Metrics Capture Underlying Preferences of Blind and Low-Vision Individuals for Navigational Aid?
- arxiv url: http://arxiv.org/abs/2502.14883v1
- Date: Sat, 15 Feb 2025 10:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:51:40.181611
- Title: Can LVLMs and Automatic Metrics Capture Underlying Preferences of Blind and Low-Vision Individuals for Navigational Aid?
- Title(参考訳): LVLMと自動メトリクスキャプチャーは視覚障害者のナビゲーション支援に好適か?
- Authors: Na Min An, Eunki Kim, Wan Ju Kang, Sangryul Kim, Hyunjung Shim, James Thorne,
- Abstract要約: Blind and Low-Vision (BLV) の人々は周囲、特に馴染みの無い環境での理解を支援する必要がある。
LVLM(Large Vision-Language Models)の多様なタイプやスタイルの応答に対するBLVユーザの嗜好についてはまだ研究されていない。
最初にEye4Bデータセットを構築し,人間による評価1.1kの屋外/屋内シーンと,シーン毎に5~10の関連要求を処理した。
次に,8人のBLVユーザによる詳細なユーザスタディを行い,6つのLVLM(Afraidness, Nonactionability, Sufficiency, Conciseness)の視点で好みを評価する。
- 参考スコア(独自算出の注目度): 16.31494394717809
- License:
- Abstract: Vision is a primary means of how humans perceive the environment, but Blind and Low-Vision (BLV) people need assistance understanding their surroundings, especially in unfamiliar environments. The emergence of semantic-based systems as assistance tools for BLV users has motivated many researchers to explore responses from Large Vision-Language Models (LVLMs). However, it has yet been studied preferences of BLV users on diverse types/styles of responses from LVLMs, specifically for navigational aid. To fill this gap, we first construct Eye4B dataset, consisting of human-validated 1.1k curated outdoor/indoor scenes with 5-10 relevant requests per scene. Then, we conduct an in-depth user study with eight BLV users to evaluate their preferences on six LVLMs from five perspectives: Afraidness, Nonactionability, Sufficiency, and Conciseness. Finally, we introduce Eye4B benchmark for evaluating alignment between widely used model-based image-text metrics and our collected BLV preferences. Our work can be set as a guideline for developing BLV-aware LVLMs towards a Barrier-Free AI system.
- Abstract(参考訳): 視覚は人間がどのように環境を知覚するかの第一の手段であるが、ブラインドとロービジョン(BLV)の人々は周囲、特に馴染みの無い環境で、周囲を理解する助けを必要としている。
BLVユーザ支援ツールとしてのセマンティックベースのシステムの出現は、多くの研究者がLVLM(Large Vision-Language Models)からの回答を探究する動機となった。
しかし, BLVユーザに対して, LVLMの多様なタイプやスタイル, 特にナビゲーション支援の好みについてはまだ研究されていない。
このギャップを埋めるために、まずEye4Bデータセットを構築した。
次に,8人のBLVユーザによる詳細なユーザスタディを行い,6つのLVLM(Afraidness, Nonactionability, Sufficiency, Conciseness)の視点で好みを評価する。
最後に、広く使われているモデルベース画像テキストメトリクスと収集したBLV選好のアライメントを評価するためのEye4Bベンチマークを提案する。
我々の研究は、BLV対応のLVLMをバリアフリーAIシステムに向けて開発するためのガイドラインとして設定できる。
関連論文リスト
- Generating Contextually-Relevant Navigation Instructions for Blind and Low Vision People [9.503205949175966]
不慣れな環境をナビゲートすることは、盲目と低視(BLV)の個人にとって大きな課題となる。
キッチンを探索したり、屋外でナビゲートしたりするなど、さまざまなシナリオで画像と目標のデータセットを構築します。
論文 参考訳(メタデータ) (2024-07-11T06:40:36Z) - WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。
WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。
実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (2024-06-16T20:53:25Z) - B-AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Black-box Adversarial Visual-Instructions [73.97665608366447]
LVLM(Large Vision-Language Models)は、ユーザからの視覚的指示に応答する上で、大きな進歩を見せている。
画像とテキストを含むこれらの命令は、意図的および意図しない攻撃の両方に影響を受けやすい。
B-AVIBenchは,様々なブラックボックス・アドミラル・ビジュアル・インストラクションに直面する場合のLVLMのロバスト性を解析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models [48.129934341928355]
Rec-GPT4V: Visual-Summary Thought (VST) という新しい推論手法を提案する。
ユーザ履歴をコンテキスト内ユーザの好みとして利用して,最初の課題に対処する。
次に、LVLMにアイテム画像要約の生成を促し、自然言語空間における画像理解とアイテムタイトルを組み合わせることで、候補項目に対するユーザの嗜好を問う。
論文 参考訳(メタデータ) (2024-02-13T18:51:18Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models [86.85389322710674]
この研究は、LVLM(Large Vision-Language Models)の早期かつ総合的な評価を提示する。
LVLM-eHubの軽量版であるTiny LVLM-eHubを提案する。
視覚的知覚、視覚的知識獲得、視覚的推論、視覚的常識、物体幻覚、具体的知能の6つのカテゴリの体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-08-07T17:17:05Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。