論文の概要: Towards Understanding the Use of MLLM-Enabled Applications for Visual Interpretation by Blind and Low Vision People
- arxiv url: http://arxiv.org/abs/2503.05899v1
- Date: Fri, 07 Mar 2025 19:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:36.767444
- Title: Towards Understanding the Use of MLLM-Enabled Applications for Visual Interpretation by Blind and Low Vision People
- Title(参考訳): 視覚障害者の視覚解釈におけるMLLM応用の理解に向けて
- Authors: Ricardo E. Gonzalez Penuela, Ruiying Hu, Sharon Lin, Tanisha Shende, Shiri Azenkot,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は視覚解釈アプリケーションに統合されている。
20名のBlind and Low Vision (BLV) 者がMLLM対応視覚解釈アプリケーションを用いた2週間の日記調査を行った。
参加者はアプリケーションの視覚的解釈を信頼でき満足できるものとみなした。
- 参考スコア(独自算出の注目度): 2.2369578015657954
- License:
- Abstract: Blind and Low Vision (BLV) people have adopted AI-powered visual interpretation applications to address their daily needs. While these applications have been helpful, prior work has found that users remain unsatisfied by their frequent errors. Recently, multimodal large language models (MLLMs) have been integrated into visual interpretation applications, and they show promise for more descriptive visual interpretations. However, it is still unknown how this advancement has changed people's use of these applications. To address this gap, we conducted a two-week diary study in which 20 BLV people used an MLLM-enabled visual interpretation application we developed, and we collected 553 entries. In this paper, we report a preliminary analysis of 60 diary entries from 6 participants. We found that participants considered the application's visual interpretations trustworthy (mean 3.75 out of 5) and satisfying (mean 4.15 out of 5). Moreover, participants trusted our application in high-stakes scenarios, such as receiving medical dosage advice. We discuss our plan to complete our analysis to inform the design of future MLLM-enabled visual interpretation systems.
- Abstract(参考訳): ブラインドとロービジョン(BLV)の人々は、日々のニーズに対応するためにAIを使った視覚解釈アプリケーションを採用しています。
これらのアプリケーションは役に立ちましたが、以前の研究では、ユーザは頻繁に発生するエラーに満足していないことが分かりました。
近年,マルチモーダル大規模言語モデル (MLLM) が視覚的解釈アプリケーションに統合され,より説明的な視覚的解釈が期待されている。
しかし、この進歩が人々のアプリケーション利用をどう変えたのかは、いまだに不明である。
このギャップに対処するため,20人のBLV人がMLLM対応視覚解釈アプリケーションを用いて2週間の日誌調査を行い,53項目を収集した。
本稿では,6名の参加者から60名の日記記事について予備分析を行った。
その結果、参加者はアプリケーションの視覚的解釈が信頼できる(平均5点中3.75点)、満足している(平均5点中4.15点)と考えた。
さらに, 患者は医療費のアドバイスを受けるなど, 高い評価のシナリオにおいて, 当社の応用を信頼していた。
今後のMLLM対応視覚解釈システムの設計について,分析を完了させる計画について論じる。
関連論文リスト
- Do Multimodal Large Language Models See Like Humans? [50.938168841711445]
MLLM(Multimodal Large Language Models)は、様々なビジョンタスクにおいて、近年の大規模言語モデルの進歩を生かして、印象的な成果を上げている。
MLLMは人間と同じような視覚情報を知覚しているか?
HVSBenchは、人間の視覚を反映する基本的な視覚タスクにおいて、MLLMと人間の視覚システム(HVS)の整合性を評価するために設計された大規模なベンチマークである。
論文 参考訳(メタデータ) (2024-12-12T18:59:25Z) - Visual Prompting in Multimodal Large Language Models: A Survey [95.75225825537528]
MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された多言語モデル(LLM)である。
ビジュアルプロンプトはよりきめ細かな自由形式のビジュアルインストラクションのために現れた。
本稿では,視覚的プロンプト,即時生成,構成的推論,即時学習に焦点をあてる。
論文 参考訳(メタデータ) (2024-09-05T08:47:34Z) - A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - Interactive Analysis of LLMs using Meaningful Counterfactuals [22.755345889167934]
カウンターファクト例は、機械学習モデルの意思決定境界を探索するのに有用である。
LLMの分析・説明に反事実的手法をどう適用すればいいのか?
本稿では,完全かつ意味のあるテキストの反事実のバッチを生成するための新しいアルゴリズムを提案する。
我々の実験では、カウンターファクトの97.2%が文法的に正しい。
論文 参考訳(メタデータ) (2024-04-23T19:57:03Z) - VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments [0.5572412691057121]
全世界で220億人が視覚障害に罹患している。
MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。
本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。
論文 参考訳(メタデータ) (2024-04-03T06:53:27Z) - Investigating Use Cases of AI-Powered Scene Description Applications for Blind and Low Vision People [2.980933566660353]
視覚障害者(BLV)にとって「シーン記述」の応用は有用な日常ツールである。
我々は,16人のBLV参加者がAIを用いたシーン記述アプリケーションを使用した2週間の日記調査を行った。
既知のオブジェクトの視覚的特徴を識別するなどのユースケースや、危険なオブジェクトとの接触を避けるような驚くべきユースケースが頻繁に見出されました。
論文 参考訳(メタデータ) (2024-03-22T20:16:55Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。