論文の概要: How Multimodal Large Language Models Support Access to Visual Information: A Diary Study With Blind and Low Vision People
- arxiv url: http://arxiv.org/abs/2602.13469v2
- Date: Thu, 19 Feb 2026 15:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.196505
- Title: How Multimodal Large Language Models Support Access to Visual Information: A Diary Study With Blind and Low Vision People
- Title(参考訳): 視覚情報へのアクセスを支援するマルチモーダル大規模言語モデル:盲人と低視者を用いたダイアリスタディ
- Authors: Ricardo E. Gonzalez Penuela, Crescentia Jung, Sharon Y Lin, Ruiying Hu, Shiri Azenkot,
- Abstract要約: MLLM(Multimodal large language model)は、BlindとLow Vision(BLV)の人々が視覚情報にアクセスする方法を変えつつある。
MLLMは視覚的解釈の精度を向上させることができるが、日常的な使用を支援することは「視覚アシスタント」のスキルにも依存する。
- 参考スコア(独自算出の注目度): 11.750552918474993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are changing how Blind and Low Vision (BLV) people access visual information. Unlike traditional visual interpretation tools that only provide descriptions, MLLM-enabled applications offer conversational assistance, where users can ask questions to obtain goal-relevant details. However, evidence about their performance in the real-world and implications for BLV people's daily lives remains limited. To address this, we conducted a two-week diary study, where we captured 20 BLV participants' use of an MLLM-enabled visual interpretation application. Although participants rated the visual interpretations of the application as "trustworthy" (mean=3.76 out of 5, max=extremely trustworthy) and "somewhat satisfying" (mean=4.13 out of 5, max=very satisfying), the AI often produced incorrect answers (22.2%) or abstained (10.8%) from responding to users' requests. Our findings show that while MLLMs can improve visual interpretations' descriptive accuracy, supporting everyday use also depends on the "visual assistant" skill: behaviors for providing goal-directed, reliable assistance. We conclude by proposing the "visual assistant" skill and guidelines to help MLLM-enabled visual interpretation applications better support BLV people's access to visual information.
- Abstract(参考訳): MLLM(Multimodal large language model)は、BlindとLow Vision(BLV)の人々が視覚情報にアクセスする方法を変えつつある。
記述のみを提供する従来の視覚解釈ツールとは異なり、MLLM対応アプリケーションは会話支援を提供する。
しかし、実生活における彼らの業績やBLVの人々の日常生活への影響に関する証拠は限られている。
そこで我々は2週間の日誌調査を行い、20人のBLV参加者によるMLLM対応視覚解釈アプリケーションの使用を捉えた。
参加者はアプリケーションの視覚的解釈を「信頼できる」(平均5点中3.76点中5点中5点中5点中5点中4.13点中)と「ある程度満足している」(平均5点中4.13点中5点中5点中4.13点)と評価したが、AIはしばしばユーザーの要求に応えて誤った回答(22.2%)や不在な回答(10.8%)を生み出した。
その結果,MLLMは視覚的解釈の記述精度を向上させることができるが,日常的使用を支援するには「視覚アシスタント」スキル(ゴール指向で信頼性の高い支援を行うための行動)にも依存することがわかった。
我々は、MLLM対応視覚解釈アプリケーションにおいて、視覚情報へのアクセスをより支援するための「視覚アシスタント」スキルとガイドラインを提案する。
関連論文リスト
- Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - Towards Understanding the Use of MLLM-Enabled Applications for Visual Interpretation by Blind and Low Vision People [2.2369578015657954]
マルチモーダル大言語モデル (MLLM) は視覚解釈アプリケーションに統合されている。
20名のBlind and Low Vision (BLV) 者がMLLM対応視覚解釈アプリケーションを用いた2週間の日記調査を行った。
参加者はアプリケーションの視覚的解釈を信頼でき満足できるものとみなした。
論文 参考訳(メタデータ) (2025-03-07T19:38:14Z) - FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
本稿では,モデルがイメージを実体的証拠として用いる能力を評価するためのベンチマークを示す。
視覚による幻覚を説明できる最強の視覚言語アライメントで注目頭を特定する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments [0.5572412691057121]
全世界で220億人が視覚障害に罹患している。
MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。
本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。
論文 参考訳(メタデータ) (2024-04-03T06:53:27Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。