論文の概要: How Multimodal Large Language Models Support Access to Visual Information: A Diary Study With Blind and Low Vision People
- arxiv url: http://arxiv.org/abs/2602.13469v1
- Date: Fri, 13 Feb 2026 21:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.041743
- Title: How Multimodal Large Language Models Support Access to Visual Information: A Diary Study With Blind and Low Vision People
- Title(参考訳): 視覚情報へのアクセスを支援するマルチモーダル大規模言語モデル:盲人と低視者を用いたダイアリスタディ
- Authors: Ricardo E. Gonzalez Penuela, Crescentia Jung, Sharon Y Lin, Ruiying Hu, Shiri Azenkot,
- Abstract要約: マルチモーダルな大規模言語モデル(MLLM)は、BlindとLow Vision(BLV)の人々が日々の生活の中で視覚情報にアクセスする方法を変えつつある。
2週間の日誌調査を行い,20人のBLV参加者によるMLLM対応視覚解釈アプリケーションの使用を捉えた。
本研究は、MLLMが記述的視覚解釈の精度を向上させることを実証するが、日常的な使用を支援することは「視覚アシスタント」スキルにも依存することを示した。
- 参考スコア(独自算出の注目度): 11.750552918474993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are changing how Blind and Low Vision (BLV) people access visual information in their daily lives. Unlike traditional visual interpretation tools that provide access through captions and OCR (text recognition through camera input), MLLM-enabled applications support access through conversational assistance, where users can ask questions to obtain goal-relevant details. However, evidence about their performance in the real-world and their implications for BLV people's everyday life remain limited. To address this, we conducted a two-week diary study, where we captured 20 BLV participants' use of an MLLM-enabled visual interpretation application. Although participants rated the visual interpretations of the application as "somewhat trustworthy" (mean=3.76 out of 5, max=very trustworthy) and "somewhat satisfying" (mean=4.13 out of 5, max=very satisfying), the AI often produced incorrect answers (22.2%) or abstained (10.8%) from responding to follow-up requests. Our work demonstrates that MLLMs can improve the accuracy of descriptive visual interpretations, but that supporting everyday use also depends on the "visual assistant" skill -- a set of behaviors for providing goal-directed, reliable assistance. We conclude by proposing the "visual assistant" skill and practical guidelines to help future MLLM-enabled visual interpretation applications better support BLV people's access to visual information.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、BlindとLow Vision(BLV)の人々が日々の生活の中で視覚情報にアクセスする方法を変えつつある。
キャプションやOCR(カメラ入力によるテキスト認識)によるアクセスを提供する従来の視覚解釈ツールとは異なり、MLLM対応アプリケーションは会話支援を通じてアクセスをサポートし、ユーザーは質問をして、ゴール関連の詳細を入手することができる。
しかし、現実世界での彼らのパフォーマンスとBLV人々の日常生活への影響に関する証拠は限られている。
そこで我々は2週間の日誌調査を行い、20人のBLV参加者によるMLLM対応視覚解釈アプリケーションの使用を捉えた。
参加者は、アプリケーションの視覚的解釈を「信頼に値するもの」(平均5点中3.76点中5点中5点中5点中5点中4.13点中)と「満足できるもの」(平均5点中4.13点中5点中5点中4.13点中5点中)と評価したが、AIはしばしば、フォローアップ要求に対する回答から誤った回答(22.2%)や不在な回答(10.8%)を生み出した。
私たちの研究は、MLLMが記述的な視覚的解釈の精度を向上させることができることを示したが、日常的な使用をサポートするには、ゴール指向で信頼性の高い支援を提供するための一連の行動である"視覚アシスタント"スキルにも依存する。
我々は、将来のMLLM対応視覚解釈アプリケーションにおいて、視覚情報へのアクセスをより支援するための「視覚アシスタント」スキルと実践的ガイドラインを提案する。
関連論文リスト
- Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - Towards Understanding the Use of MLLM-Enabled Applications for Visual Interpretation by Blind and Low Vision People [2.2369578015657954]
マルチモーダル大言語モデル (MLLM) は視覚解釈アプリケーションに統合されている。
20名のBlind and Low Vision (BLV) 者がMLLM対応視覚解釈アプリケーションを用いた2週間の日記調査を行った。
参加者はアプリケーションの視覚的解釈を信頼でき満足できるものとみなした。
論文 参考訳(メタデータ) (2025-03-07T19:38:14Z) - FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
本稿では,モデルがイメージを実体的証拠として用いる能力を評価するためのベンチマークを示す。
視覚による幻覚を説明できる最強の視覚言語アライメントで注目頭を特定する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments [0.5572412691057121]
全世界で220億人が視覚障害に罹患している。
MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。
本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。
論文 参考訳(メタデータ) (2024-04-03T06:53:27Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。