論文の概要: Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis
- arxiv url: http://arxiv.org/abs/2501.15370v1
- Date: Sun, 26 Jan 2025 02:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:13.149313
- Title: Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis
- Title(参考訳): 生体画像解析におけるマルチモーダル理解のための大規模視覚言語モデルのスケーリング
- Authors: Robinson Umeike, Neil Getty, Fangfang Xia, Rick Stevens,
- Abstract要約: ビジョン言語モデル(VLM)は、画像処理のための事前訓練されたビジョンバックボーンと、クロスモーダルプロジェクタを組み込むことによって、この問題に対処する。
低線量放射線治療におけるマルチモーダル理解を高めるため,LLaVAモデルから微調整されたインテリジェントアシスタントを開発した。
- 参考スコア(独自算出の注目度): 0.1984949535188529
- License:
- Abstract: Large language models (LLMs) have demonstrated immense capabilities in understanding textual data and are increasingly being adopted to help researchers accelerate scientific discovery through knowledge extraction (information retrieval), knowledge distillation (summarizing key findings and methodologies into concise forms), and knowledge synthesis (aggregating information from multiple scientific sources to address complex queries, generate hypothesis and formulate experimental plans). However, scientific data often exists in both visual and textual modalities. Vision language models (VLMs) address this by incorporating a pretrained vision backbone for processing images and a cross-modal projector that adapts image tokens into the LLM dimensional space, thereby providing richer multimodal comprehension. Nevertheless, off-the-shelf VLMs show limited capabilities in handling domain-specific data and are prone to hallucinations. We developed intelligent assistants finetuned from LLaVA models to enhance multimodal understanding in low-dose radiation therapy (LDRT)-a benign approach used in the treatment of cancer-related illnesses. Using multilingual data from 42,673 articles, we devise complex reasoning and detailed description tasks for visual question answering (VQA) benchmarks. Our assistants, trained on 50,882 image-text pairs, demonstrate superior performance over base models as evaluated using LLM-as-a-judge approach, particularly in reducing hallucination and improving domain-specific comprehension.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストデータの理解において、研究者が知識抽出(情報検索)、知識蒸留(重要な発見と方法論を簡潔な形式に要約する)、知識合成(複数の科学的ソースから情報を収集して複雑なクエリに対処し、仮説を作成し、実験計画を定式化する)を通じて科学的発見を加速するのを助けるために、急速に採用されている。
しかし、科学データはしばしば視覚的・テキスト的なモダリティの両方に存在する。
ビジョン言語モデル(VLM)は、画像処理のための事前訓練されたビジョンバックボーンと、画像トークンをLLM次元空間に適応させ、よりリッチなマルチモーダル理解を提供するクロスモーダルプロジェクタを組み込むことによって、この問題に対処する。
それでも、既製のVLMはドメイン固有のデータを扱う能力が限られており、幻覚を起こす傾向がある。
我々は,低線量放射線治療(LDRT)におけるマルチモーダル理解を高めるために,LLaVAモデルから微調整されたインテリジェントアシスタントを開発した。
42,673論文の多言語データを用いて,視覚的質問応答(VQA)ベンチマークのための複雑な推論と詳細な記述タスクを考案した。
LLM-as-a-judgeアプローチを用いて,50,882枚の画像テキストペアを訓練し,基礎モデルよりも優れた性能を示し,特に幻覚の低減とドメイン固有の理解の向上に寄与した。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。
我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文 参考訳(メタデータ) (2024-09-26T15:57:08Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - On Large Visual Language Models for Medical Imaging Analysis: An
Empirical Study [13.972931873011914]
大規模言語モデル(LLM)は自然言語処理において注目されている。
LLaVA、Flamingo、CLIPといったビジュアル言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T23:01:38Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。