Fugu-MT 論文翻訳(概要): Targeted Visual Prompting for Medical Visual Question Answering

論文の概要: Targeted Visual Prompting for Medical Visual Question Answering

arxiv url: http://arxiv.org/abs/2408.03043v1
Date: Tue, 6 Aug 2024 08:58:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 14:37:26.500296
Title: Targeted Visual Prompting for Medical Visual Question Answering
Title（参考訳）: 医用視覚質問応答のためのターゲット型視覚プロンプト
Authors: Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman,
Abstract要約: マルチモーダル・大規模言語モデル(MLLM)は、古典的なモデルアーキテクチャの代替として登場した。単純な視覚的誤りは、これらのモデルの実際の視覚的理解能力に疑問を投げかけた。本稿では,MLLMに領域ベースの質問機能を持たせるための視覚的プロンプトを提案する。
参考スコア（独自算出の注目度）: 3.600327818936722
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With growing interest in recent years, medical visual question answering (Med-VQA) has rapidly evolved, with multimodal large language models (MLLMs) emerging as an alternative to classical model architectures. Specifically, their ability to add visual information to the input of pre-trained LLMs brings new capabilities for image interpretation. However, simple visual errors cast doubt on the actual visual understanding abilities of these models. To address this, region-based questions have been proposed as a means to assess and enhance actual visual understanding through compositional evaluation. To combine these two perspectives, this paper introduces targeted visual prompting to equip MLLMs with region-based questioning capabilities. By presenting the model with both the isolated region and the region in its context in a customized visual prompt, we show the effectiveness of our method across multiple datasets while comparing it to several baseline models. Our code and data are available at https://github.com/sergiotasconmorales/locvqallm.
Abstract（参考訳）: 近年、医学的な視覚的質問応答 (Med-VQA) が急速に発展し、古典的なモデルアーキテクチャの代替としてマルチモーダルな大規模言語モデル (MLLM) が出現している。具体的には、事前学習されたLLMの入力に視覚情報を追加する能力は、画像解釈に新たな能力をもたらす。しかし、単純な視覚的誤りは、これらのモデルの実際の視覚的理解能力に疑問を投げかけた。これを解決するため、地域ベースの質問は、構成的評価を通じて実際の視覚的理解を評価し、強化する手段として提案されている。本稿では,これら2つの視点を組み合わせるために,MLLMに領域ベースの質問機能を持たせるための視覚的プロンプトを提案する。分離された領域と領域の両方を、カスタマイズされた視覚的プロンプトで表現することで、複数のデータセットにまたがる手法の有効性を示し、それを複数のベースラインモデルと比較する。私たちのコードとデータはhttps://github.com/sergiotasconmorales/locvqallm.comで公開されています。

関連論文リスト

See or Recall: A Sanity Check for the Role of Vision in Solving Visualization Question Answer Tasks with Multimodal LLMs [13.330105502094721]
MLLMがどのように可視化について認識し、理由を判断するかは、人間が同じ問題にどのようにアプローチするかと根本的に異なる。規則に基づく決定木と正当性チェックテーブルを統合した包括的正当性チェックフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-14T02:19:28Z)
Where do Large Vision-Language Models Look at when Answering Questions? [35.39354978511109]
LVLM(Large Vision-Language Models)は、視覚言語理解と推論タスクにおいて有望な性能を示す。我々は既存のヒートマップ可視化手法を拡張し、オープンな視覚的質問応答のためのLVLMをサポートする。我々は,視覚情報を必要とするベンチマークにおいて,最先端のLVLMを包括的に分析する。
論文参考訳（メタデータ） (2025-03-18T04:34:43Z)
The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights [26.85150689408895]
既存のマルチモーダルな数学的モデルでは視覚情報を最小限に活用できることを示す。これは、意図せずモデルに回答を誘導するテキスト情報と回答オプションの優位性に起因している。先行モデルをテストする際、微妙な視覚的差異を検知できないことは、現在の視覚知覚能力の限界を示唆している。
論文参考訳（メタデータ） (2025-03-06T07:29:33Z)
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective [42.69954782425797]
LVLM(Large Vision-Language Models)は、チャート、テーブル、ドキュメントからのテキストリッチなイメージに対して、有望な推論能力を示している。これにより、画像中の言語が命令の言語と異なる場合、言語間テキストリッチな視覚入力に対してLVLMの性能を評価する必要が生じる。 XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) は,LVLMが画像テキストと質問間の言語不整合をどのように扱うかを評価するためのベンチマークである。
論文参考訳（メタデータ） (2024-12-23T18:48:04Z)
Visual Prompting in Multimodal Large Language Models: A Survey [95.75225825537528]
MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された多言語モデル(LLM)である。ビジュアルプロンプトはよりきめ細かな自由形式のビジュアルインストラクションのために現れた。本稿では,視覚的プロンプト,即時生成,構成的推論,即時学習に焦点をあてる。
論文参考訳（メタデータ） (2024-09-05T08:47:34Z)
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文参考訳（メタデータ） (2024-07-18T18:39:54Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment [31.688373463643373]
視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。本稿では,VKA(Valted Visual Knowledge Aligner)とFKA(Falt-fine Knowledge Adapter)とを含む認知視覚言語マップ(CVLM)について述べる。我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-02-21T06:34:46Z)
Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文参考訳（メタデータ） (2022-11-10T21:44:33Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。 ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文参考訳（メタデータ） (2020-08-04T08:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。