論文の概要: VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments
- arxiv url: http://arxiv.org/abs/2404.02508v1
- Date: Wed, 3 Apr 2024 06:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:19:59.139801
- Title: VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments
- Title(参考訳): VIAssist: 視覚障害のあるユーザにマルチモーダルな大規模言語モデルを適用する
- Authors: Bufang Yang, Lixing He, Kaiwei Liu, Zhenyu Yan,
- Abstract要約: 全世界で220億人が視覚障害に罹患している。
MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。
本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。
- 参考スコア(独自算出の注目度): 0.5572412691057121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Individuals with visual impairments, encompassing both partial and total difficulties in visual perception, are referred to as visually impaired (VI) people. An estimated 2.2 billion individuals worldwide are affected by visual impairments. Recent advancements in multi-modal large language models (MLLMs) have showcased their extraordinary capabilities across various domains. It is desirable to help VI individuals with MLLMs' great capabilities of visual understanding and reasoning. However, it is challenging for VI people to use MLLMs due to the difficulties in capturing the desirable images to fulfill their daily requests. For example, the target object is not fully or partially placed in the image. This paper explores how to leverage MLLMs for VI individuals to provide visual-question answers. VIAssist can identify undesired images and provide detailed actions. Finally, VIAssist can provide reliable answers to users' queries based on the images. Our results show that VIAssist provides +0.21 and +0.31 higher BERTScore and ROUGE scores than the baseline, respectively.
- Abstract(参考訳): 視覚障害のある人は視覚障害者(VI)と呼ばれる。
全世界で220億人が視覚障害に罹患している。
MLLM(Multi-modal large language model)の最近の進歩は、様々な領域にまたがる異常な能力を示した。
MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。
しかし、毎日の要求を満たすために望ましい画像を取得するのが困難であるため、VI人がMLLMを使うのは困難である。
例えば、対象のオブジェクトは画像に完全にあるいは部分的に置かれていない。
本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。
VIAssistは望ましくない画像を識別し、詳細なアクションを提供する。
最後に、VIAssistは画像に基づいてユーザーのクエリに信頼できる回答を提供することができる。
以上の結果から, VIAssist はベースラインよりも BERTScore と ROUGE のスコアが高い+0.21 と +0.31 を提供することがわかった。
関連論文リスト
- Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - A Benchmark for Multi-modal Foundation Models on Low-level Vision: from
Single Images to Pairs [76.24832641793621]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - VIALM: A Survey and Benchmark of Visually Impaired Assistance with Large
Models [8.043137652284539]
この研究は、視覚障害者支援(VIA)における選択されたLMの能力について、最近のLM研究およびベンチマーク実験をレビューした調査から成っている。
その結果、LMはVIAの恩恵を受けることができるが、その出力は環境に十分整えられず、きめ細かいガイダンスが欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-01-29T08:28:32Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance
Visual Robustness via Denoising In-Context Learning [71.0588455785955]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - VIM: Probing Multimodal Large Language Models for Visual Embedded
Instruction Following [109.02943724765959]
MLLM(Multimodal Large Language Models)の機能に追従する視覚的命令を評価するための新しいフレームワークであるVISUAL EMBEDEDED INSTRUCTION (VIM)を紹介した。
VIMは、命令を視覚シーンに埋め込むことでMLLMに挑戦し、指示に従うために強力な視覚的解釈スキルを要求する。
我々は、VQAv2、MME、MM-Vet、RefCOCOシリーズなどの様々なベンチマークにVIMを適用し、VIMベンチを作成し、Zero Shot、One Shot、Pair Shotという3つの異なるコンテキスト内学習環境にまたがる多様なMLLMを探索する。
論文 参考訳(メタデータ) (2023-11-29T14:08:53Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。