Fugu-MT 論文翻訳(概要): STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical

論文の概要: STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical

arxiv url: http://arxiv.org/abs/2406.19973v1
Date: Fri, 28 Jun 2024 15:01:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 16:30:41.060019
Title: STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical
Title（参考訳）: STLLaVA-Med: 自己学習型大規模言語と医用ビジョンアシスタント
Authors: Guohao Sun, Can Qin, Huazhu Fu, Linwei Wang, Zhiqiang Tao,
Abstract要約: STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
参考スコア（独自算出の注目度）: 58.79671189792399
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (LVLMs) have shown significant potential in assisting medical diagnosis by leveraging extensive biomedical datasets. However, the advancement of medical image understanding and reasoning critically depends on building high-quality visual instruction data, which is costly and labor-intensive to obtain, particularly in the medical domain. To mitigate this data-starving issue, we introduce Self-Training Large Language and Vision Assistant for Medical (STLLaVA-Med). The proposed method is designed to train a policy model (an LVLM) capable of auto-generating medical visual instruction data to improve data efficiency, guided through Direct Preference Optimization (DPO). Specifically, a more powerful and larger LVLM (e.g., GPT-4o) is involved as a biomedical expert to oversee the DPO fine-tuning process on the auto-generated data, encouraging the policy model to align efficiently with human preferences. We validate the efficacy and data efficiency of STLLaVA-Med across three major medical Visual Question Answering (VQA) benchmarks, demonstrating competitive zero-shot performance with the utilization of only 9% of the medical data.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、幅広いバイオメディカルデータセットを活用することで、医学的診断を支援する大きな可能性を示している。しかし、医用画像理解・推論の進歩は、医用領域、特に医療領域において、高コストで労働集約的な高品質な視覚指導データの構築に大きく依存する。このデータ探索問題を緩和するために,医療用自己学習大言語とビジョンアシスタント(STLLaVA-Med)を紹介する。提案手法は,医用ビジュアルインストラクションデータを自動生成してデータ効率を向上させる政策モデル(LVLM)を訓練するために設計され,DPO(Direct Preference Optimization)によって導かれる。具体的には、より強力でより大きなLVLM(例えば、GPT-4o)が生物医学の専門家として関与し、自動生成データ上でDPOの微調整プロセスを監督し、政策モデルが人間の嗜好と効率的に整合することを奨励する。 STLLaVA-Medの3つの主要な医用ビジュアル質問応答 (VQA) ベンチマークの有効性とデータ効率を検証し, 医用データのわずか9%を有効利用して, 競争力のあるゼロショット性能を実証した。

関連論文リスト

GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文参考訳（メタデータ） (2025-06-22T08:09:58Z)
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
Confounder-Aware Medical Data Selection for Fine-Tuning Pretrained Vision Models [11.10271979935354]
医用データセットキュレーションのための共同設立者対応医療データ選択手法を提案する。提案手法は,まずデータ内の変数を識別し,距離に基づくデータ選択戦略を開発する。多様な医用画像モダリティの広範な実験を通じて,アプローチの優位性を検証した。
論文参考訳（メタデータ） (2025-03-02T05:50:25Z)
FineMedLM-o1: Enhancing the Medical Reasoning Ability of LLM from Supervised Fine-Tuning to Test-Time Training [12.1175788614508]
FineMedLM-o1は医学的推論のための大きな言語モデルである。 Supervised Fine-Tuning (SFT) と Direct Preference Optimization (DPO) のための高品質な合成医療データと長文推論データを用いる。また,臨床領域でテストタイムトレーニング(TTT)を初めて導入し,ドメイン適応の促進と信頼性,正確な推論の確保を図った。
論文参考訳（メタデータ） (2025-01-16T00:19:19Z)
IIMedGPT: Promoting Large Language Model Capabilities of Medical Tasks by Efficient Human Preference Alignment [6.022433954095106]
実際の医療課題から派生した6つの医療指導を含む医療指導データセットCMedINSを紹介した。次に、効率的な選好アライメント手法を用いて、医用モデルIIMedGPTをローンチする。その結果,本研究の最終モデルは医療対話における既存の医療モデルよりも優れていた。
論文参考訳（メタデータ） (2025-01-06T09:22:36Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
Enhancing Healthcare through Large Language Models: A Study on Medical Question Answering [13.237829215746443]
Sentence-t5 + Mistral 7B モデルは、正確な医療回答の理解と生成に優れている。以上の結果から,医学的文脈における高度なLCMの統合の可能性が示唆された。
論文参考訳（メタデータ） (2024-08-08T00:35:39Z)
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。 PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-06-27T15:50:41Z)
README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文参考訳（メタデータ） (2023-12-24T23:01:00Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文参考訳（メタデータ） (2023-06-01T16:50:07Z)
Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文参考訳（メタデータ） (2022-05-19T17:34:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。