Fugu-MT 論文翻訳(概要): VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments

論文の概要: VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments

arxiv url: http://arxiv.org/abs/2404.02508v1
Date: Wed, 3 Apr 2024 06:53:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 18:19:59.139801
Title: VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments
Title（参考訳）: VIAssist: 視覚障害のあるユーザにマルチモーダルな大規模言語モデルを適用する
Authors: Bufang Yang, Lixing He, Kaiwei Liu, Zhenyu Yan,
Abstract要約: 全世界で220億人が視覚障害に罹患している。 MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。
参考スコア（独自算出の注目度）: 0.5572412691057121
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Individuals with visual impairments, encompassing both partial and total difficulties in visual perception, are referred to as visually impaired (VI) people. An estimated 2.2 billion individuals worldwide are affected by visual impairments. Recent advancements in multi-modal large language models (MLLMs) have showcased their extraordinary capabilities across various domains. It is desirable to help VI individuals with MLLMs' great capabilities of visual understanding and reasoning. However, it is challenging for VI people to use MLLMs due to the difficulties in capturing the desirable images to fulfill their daily requests. For example, the target object is not fully or partially placed in the image. This paper explores how to leverage MLLMs for VI individuals to provide visual-question answers. VIAssist can identify undesired images and provide detailed actions. Finally, VIAssist can provide reliable answers to users' queries based on the images. Our results show that VIAssist provides +0.21 and +0.31 higher BERTScore and ROUGE scores than the baseline, respectively.
Abstract（参考訳）: 視覚障害のある人は視覚障害者(VI)と呼ばれる。全世界で220億人が視覚障害に罹患している。 MLLM(Multi-modal large language model)の最近の進歩は、様々な領域にまたがる異常な能力を示した。 MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。しかし、毎日の要求を満たすために望ましい画像を取得するのが困難であるため、VI人がMLLMを使うのは困難である。例えば、対象のオブジェクトは画像に完全にあるいは部分的に置かれていない。本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。 VIAssistは望ましくない画像を識別し、詳細なアクションを提供する。最後に、VIAssistは画像に基づいてユーザーのクエリに信頼できる回答を提供することができる。以上の結果から, VIAssist はベースラインよりも BERTScore と ROUGE のスコアが高い+0.21 と +0.31 を提供することがわかった。

関連論文リスト

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。 SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文参考訳（メタデータ） (2025-06-10T02:55:38Z)
Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。 VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文参考訳（メタデータ） (2025-06-09T17:59:54Z)
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。 Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
See or Recall: A Sanity Check for the Role of Vision in Solving Visualization Question Answer Tasks with Multimodal LLMs [13.330105502094721]
MLLMがどのように可視化について認識し、理由を判断するかは、人間が同じ問題にどのようにアプローチするかと根本的に異なる。規則に基づく決定木と正当性チェックテーブルを統合した包括的正当性チェックフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-14T02:19:28Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Understanding Graphical Perception in Data Visualization through Zero-shot Prompting of Vision-Language Models [23.571294524129847]
視覚言語モデル(VLM)は多くのチャート理解タスクで成功している。本稿では,VLMのゼロショットプロンプトの精度を,人間の評価プロファイルを定式化して評価することにより,そのような応用の基礎を定式化した。
論文参考訳（メタデータ） (2024-10-31T23:24:46Z)
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing [150.0380447353081]
本稿では,静的画像とダイナミックビデオの両方の包括的理解,セグメンテーション,クラスタ化のために設計された,ユニバーサルピクセルレベルのビジョンLLMであるVITRONを紹介する。 LLMの上に構築されているVITRONは、画像、ビデオ、ピクセルレベルの地域視覚のエンコーダをモジュール内に組み込んでおり、最先端のビジュアルスペシャリストをバックエンドとして採用している。
論文参考訳（メタデータ） (2024-10-08T08:39:04Z)
Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文参考訳（メタデータ） (2024-06-24T17:52:16Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文参考訳（メタデータ） (2024-02-11T06:44:11Z)
VIALM: A Survey and Benchmark of Visually Impaired Assistance with Large Models [8.043137652284539]
この研究は、視覚障害者支援(VIA)における選択されたLMの能力について、最近のLM研究およびベンチマーク実験をレビューした調査から成っている。その結果、LMはVIAの恩恵を受けることができるが、その出力は環境に十分整えられず、きめ細かいガイダンスが欠如していることが示唆された。
論文参考訳（メタデータ） (2024-01-29T08:28:32Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。