論文の概要: VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments
- arxiv url: http://arxiv.org/abs/2404.02508v1
- Date: Wed, 3 Apr 2024 06:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:19:59.139801
- Title: VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments
- Title(参考訳): VIAssist: 視覚障害のあるユーザにマルチモーダルな大規模言語モデルを適用する
- Authors: Bufang Yang, Lixing He, Kaiwei Liu, Zhenyu Yan,
- Abstract要約: 全世界で220億人が視覚障害に罹患している。
MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。
本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。
- 参考スコア(独自算出の注目度): 0.5572412691057121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Individuals with visual impairments, encompassing both partial and total difficulties in visual perception, are referred to as visually impaired (VI) people. An estimated 2.2 billion individuals worldwide are affected by visual impairments. Recent advancements in multi-modal large language models (MLLMs) have showcased their extraordinary capabilities across various domains. It is desirable to help VI individuals with MLLMs' great capabilities of visual understanding and reasoning. However, it is challenging for VI people to use MLLMs due to the difficulties in capturing the desirable images to fulfill their daily requests. For example, the target object is not fully or partially placed in the image. This paper explores how to leverage MLLMs for VI individuals to provide visual-question answers. VIAssist can identify undesired images and provide detailed actions. Finally, VIAssist can provide reliable answers to users' queries based on the images. Our results show that VIAssist provides +0.21 and +0.31 higher BERTScore and ROUGE scores than the baseline, respectively.
- Abstract(参考訳): 視覚障害のある人は視覚障害者(VI)と呼ばれる。
全世界で220億人が視覚障害に罹患している。
MLLM(Multi-modal large language model)の最近の進歩は、様々な領域にまたがる異常な能力を示した。
MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。
しかし、毎日の要求を満たすために望ましい画像を取得するのが困難であるため、VI人がMLLMを使うのは困難である。
例えば、対象のオブジェクトは画像に完全にあるいは部分的に置かれていない。
本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。
VIAssistは望ましくない画像を識別し、詳細なアクションを提供する。
最後に、VIAssistは画像に基づいてユーザーのクエリに信頼できる回答を提供することができる。
以上の結果から, VIAssist はベースラインよりも BERTScore と ROUGE のスコアが高い+0.21 と +0.31 を提供することがわかった。
関連論文リスト
- Understanding Graphical Perception in Data Visualization through Zero-shot Prompting of Vision-Language Models [23.571294524129847]
視覚言語モデル(VLM)は多くのチャート理解タスクで成功している。
本稿では,VLMのゼロショットプロンプトの精度を,人間の評価プロファイルを定式化して評価することにより,そのような応用の基礎を定式化した。
論文 参考訳(メタデータ) (2024-10-31T23:24:46Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - VIALM: A Survey and Benchmark of Visually Impaired Assistance with Large
Models [8.043137652284539]
この研究は、視覚障害者支援(VIA)における選択されたLMの能力について、最近のLM研究およびベンチマーク実験をレビューした調査から成っている。
その結果、LMはVIAの恩恵を受けることができるが、その出力は環境に十分整えられず、きめ細かいガイダンスが欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-01-29T08:28:32Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。