論文の概要: HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains
- arxiv url: http://arxiv.org/abs/2506.07837v1
- Date: Mon, 09 Jun 2025 15:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.147614
- Title: HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains
- Title(参考訳): HAIBU-ReMUD:マルチモーダル超音波データセットと一般特定領域へのモデルブリッジの推論
- Authors: Shijie Wang, Yilun Zhang, Zeyu Lai, Dexing Kong,
- Abstract要約: 本稿では、ドメイン四重項を生成するための教師付き微調整データ生成パイプラインを提案する。
医用超音波領域データセットReMUDが確立され、45,000以上の推論と非推論による微調整質問回答(QA)と視覚質問回答(VQA)データを含む。
Qwen2.5-VL-7B-インストラクトを微調整したReMUD-7Bモデルは、医用超音波分野での一般領域MLLMよりも優れている。
- 参考スコア(独自算出の注目度): 9.408818241039986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have shown great potential in general domains but perform poorly in some specific domains due to a lack of domain-specific data, such as image-text data or vedio-text data. In some specific domains, there is abundant graphic and textual data scattered around, but lacks standardized arrangement. In the field of medical ultrasound, there are ultrasonic diagnostic books, ultrasonic clinical guidelines, ultrasonic diagnostic reports, and so on. However, these ultrasonic materials are often saved in the forms of PDF, images, etc., and cannot be directly used for the training of MLLMs. This paper proposes a novel image-text reasoning supervised fine-tuning data generation pipeline to create specific domain quadruplets (image, question, thinking trace, and answer) from domain-specific materials. A medical ultrasound domain dataset ReMUD is established, containing over 45,000 reasoning and non-reasoning supervised fine-tuning Question Answering (QA) and Visual Question Answering (VQA) data. The ReMUD-7B model, fine-tuned on Qwen2.5-VL-7B-Instruct, outperforms general-domain MLLMs in medical ultrasound field. To facilitate research, the ReMUD dataset, data generation codebase, and ReMUD-7B parameters will be released at https://github.com/ShiDaizi/ReMUD, addressing the data shortage issue in specific domain MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は、画像テキストデータやvedio-textデータなどのドメイン固有のデータがないため、一般的なドメインでは大きなポテンシャルを示すが、特定のドメインでは性能が低い。
特定のドメインによっては、大量のグラフィックデータとテキストデータが散在するが、標準化されたアレンジメントがない。
医用超音波の分野では、超音波診断書、超音波臨床ガイドライン、超音波診断報告などがある。
しかし,これらの超音波材料はPDFや画像などの形式で保存されることが多く,MLLMのトレーニングに直接使用することはできない。
本稿では,ドメイン固有材料から特定のドメイン四重項(画像,質問,思考トレース,回答)を作成するための,教師付き微調整データ生成パイプラインを提案する。
医用超音波領域データセットReMUDが確立され、45,000以上の推論と非推論による微調整質問回答(QA)と視覚質問回答(VQA)データを含む。
Qwen2.5-VL-7B-インストラクトを微調整したReMUD-7Bモデルは、医用超音波分野での一般領域MLLMよりも優れている。
調査を容易にするため、ReMUDデータセット、データ生成コードベース、ReMUD-7Bパラメータはhttps://github.com/Shidaizi/ReMUDでリリースされ、特定のドメインMLLMにおけるデータ不足問題に対処する。
関連論文リスト
- MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression [9.739199023618042]
MedVQAのための新しいデータセットであるMMXUを導入する。
シングルイメージの質問に主に対処する以前のデータセットとは異なり、MMXUは現在の患者データと歴史的な患者データの両方を取り入れたマルチイメージの質問を可能にする。
実験の結果,過去の記録の統合は診断精度を少なくとも20%向上させ,現在のLVLMと人的専門家のパフォーマンスのギャップを埋めることを示した。
論文 参考訳(メタデータ) (2025-02-17T10:43:38Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models [18.984165679347026]
Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
論文 参考訳(メタデータ) (2024-01-27T02:29:42Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。