論文の概要: Guiding Multimodal Large Language Models with Blind and Low Vision People Visual Questions for Proactive Visual Interpretations
- arxiv url: http://arxiv.org/abs/2510.01576v1
- Date: Thu, 02 Oct 2025 01:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.940981
- Title: Guiding Multimodal Large Language Models with Blind and Low Vision People Visual Questions for Proactive Visual Interpretations
- Title(参考訳): 視覚障害者の視覚的質問を積極的に解釈する多モーダル大言語モデルの指導
- Authors: Ricardo Gonzalez Penuela, Felipe Arias-Russi, Victor Capriles,
- Abstract要約: MLLM(Multimodal large language model)は、Blind and Low Vision (BLV)ユーザをサポートする視覚解釈アプリケーションに統合されている。
これらのアプリケーションは、コンテキストに関係なく、しばしば包括的で長い記述をデフォルトにします。
我々は,歴史的BLVユーザの質問に基づいてコンテキスト関連情報を提供するシステムを開発した。
- 参考スコア(独自算出の注目度): 0.15293427903448018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have been integrated into visual interpretation applications to support Blind and Low Vision (BLV) users because of their accuracy and ability to provide rich, human-like interpretations. However, these applications often default to comprehensive, lengthy descriptions regardless of context. This leads to inefficient exchanges, as users must go through irrelevant details rather than receiving the specific information they are likely to seek. To deliver more contextually-relevant information, we developed a system that draws on historical BLV users questions. When given an image, our system identifies similar past visual contexts from the VizWiz-LF dataset and uses the associated questions to guide the MLLM generate descriptions more relevant to BLV users. An evaluation with three human labelers who revised 92 context-aware and context-free descriptions showed that context-aware descriptions anticipated and answered users' questions in 76.1% of cases (70 out of 92) and were preferred in 54.4% of comparisons (50 out of 92). Our paper reviews, and data analysis are publicly available in a Github repository at https://github.com/rgonzalezp/guiding-multimodal-large-language-models-with-blind-and-low-vision-peo ple-visual-questions .
- Abstract(参考訳): MLLM(Multimodal large language model)は、Blind and Low Vision (BLV)ユーザをサポートする視覚解釈アプリケーションに統合されている。
しかし、これらのアプリケーションはコンテキストに関係なく、しばしば包括的で長い記述をデフォルトにします。
これは、ユーザが探す可能性のある特定の情報を受信するのではなく、無関係な詳細を通さなければならないため、非効率な交換につながる。
より文脈に関連のある情報を提供するために,歴史あるBLVユーザによる質問に基づくシステムを開発した。
画像が与えられると、VizWiz-LFデータセットから類似した視覚的コンテキストを特定し、関連する質問を使ってMLLMがBLVユーザとより関連性の高い記述を生成する。
92の文脈認識記述と文脈無記述を改訂した3人のラベル屋による評価では、コンテキスト認識記述は76.1%のケース(92のうち70)でユーザの質問に回答し、54.4%のケース(92のうち50)で好まれていた。
論文レビューとデータ分析はGithubのhttps://github.com/rgonzalezp/guiding-multimodal-large- Language-models-with-blind-and-low-vision-person-visual-questionsで公開されています。
関連論文リスト
- Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models [48.129934341928355]
Rec-GPT4V: Visual-Summary Thought (VST) という新しい推論手法を提案する。
ユーザ履歴をコンテキスト内ユーザの好みとして利用して,最初の課題に対処する。
次に、LVLMにアイテム画像要約の生成を促し、自然言語空間における画像理解とアイテムタイトルを組み合わせることで、候補項目に対するユーザの嗜好を問う。
論文 参考訳(メタデータ) (2024-02-13T18:51:18Z) - BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual
Questions [41.825273034537204]
視覚言語モデル(VLM)は、テキストで注入された画像を正確に解釈することはできない。
本稿では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。
我々のモデルは、テキストリッチなVQAベンチマークの処理や、一般的な(特にテキストリッチではない)VQAベンチマークの実行において、パフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-08-19T07:53:43Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。