論文の概要: HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains
- arxiv url: http://arxiv.org/abs/2506.07837v1
- Date: Mon, 09 Jun 2025 15:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.147614
- Title: HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains
- Title(参考訳): HAIBU-ReMUD:マルチモーダル超音波データセットと一般特定領域へのモデルブリッジの推論
- Authors: Shijie Wang, Yilun Zhang, Zeyu Lai, Dexing Kong,
- Abstract要約: 本稿では、ドメイン四重項を生成するための教師付き微調整データ生成パイプラインを提案する。
医用超音波領域データセットReMUDが確立され、45,000以上の推論と非推論による微調整質問回答(QA)と視覚質問回答(VQA)データを含む。
Qwen2.5-VL-7B-インストラクトを微調整したReMUD-7Bモデルは、医用超音波分野での一般領域MLLMよりも優れている。
- 参考スコア(独自算出の注目度): 9.408818241039986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have shown great potential in general domains but perform poorly in some specific domains due to a lack of domain-specific data, such as image-text data or vedio-text data. In some specific domains, there is abundant graphic and textual data scattered around, but lacks standardized arrangement. In the field of medical ultrasound, there are ultrasonic diagnostic books, ultrasonic clinical guidelines, ultrasonic diagnostic reports, and so on. However, these ultrasonic materials are often saved in the forms of PDF, images, etc., and cannot be directly used for the training of MLLMs. This paper proposes a novel image-text reasoning supervised fine-tuning data generation pipeline to create specific domain quadruplets (image, question, thinking trace, and answer) from domain-specific materials. A medical ultrasound domain dataset ReMUD is established, containing over 45,000 reasoning and non-reasoning supervised fine-tuning Question Answering (QA) and Visual Question Answering (VQA) data. The ReMUD-7B model, fine-tuned on Qwen2.5-VL-7B-Instruct, outperforms general-domain MLLMs in medical ultrasound field. To facilitate research, the ReMUD dataset, data generation codebase, and ReMUD-7B parameters will be released at https://github.com/ShiDaizi/ReMUD, addressing the data shortage issue in specific domain MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は、画像テキストデータやvedio-textデータなどのドメイン固有のデータがないため、一般的なドメインでは大きなポテンシャルを示すが、特定のドメインでは性能が低い。
特定のドメインによっては、大量のグラフィックデータとテキストデータが散在するが、標準化されたアレンジメントがない。
医用超音波の分野では、超音波診断書、超音波臨床ガイドライン、超音波診断報告などがある。
しかし,これらの超音波材料はPDFや画像などの形式で保存されることが多く,MLLMのトレーニングに直接使用することはできない。
本稿では,ドメイン固有材料から特定のドメイン四重項(画像,質問,思考トレース,回答)を作成するための,教師付き微調整データ生成パイプラインを提案する。
医用超音波領域データセットReMUDが確立され、45,000以上の推論と非推論による微調整質問回答(QA)と視覚質問回答(VQA)データを含む。
Qwen2.5-VL-7B-インストラクトを微調整したReMUD-7Bモデルは、医用超音波分野での一般領域MLLMよりも優れている。
調査を容易にするため、ReMUDデータセット、データ生成コードベース、ReMUD-7Bパラメータはhttps://github.com/Shidaizi/ReMUDでリリースされ、特定のドメインMLLMにおけるデータ不足問題に対処する。
関連論文リスト
- GroundingDINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned Vision-Language Models [2.089191490381739]
本研究では,複数の超音波臓器にまたがる物体セグメンテーションを実現するために,Grounding DINOとSAM2を統合したプロンプト駆動視覚言語モデル(VLM)を提案する。
胸, 甲状腺, 肝臓, 前立腺, 腎臓, 脊髄筋を含む18種類の超音波データセットが得られた。
提案手法は,UniverSeg,MedSAM,MedCLIP-SAM,BiomedParse,SAMUSなどの最先端セグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2025-06-30T14:33:44Z) - MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression [9.739199023618042]
MedVQAのための新しいデータセットであるMMXUを導入する。
シングルイメージの質問に主に対処する以前のデータセットとは異なり、MMXUは現在の患者データと歴史的な患者データの両方を取り入れたマルチイメージの質問を可能にする。
実験の結果,過去の記録の統合は診断精度を少なくとも20%向上させ,現在のLVLMと人的専門家のパフォーマンスのギャップを埋めることを示した。
論文 参考訳(メタデータ) (2025-02-17T10:43:38Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound [7.941670191244354]
パラメータ効率の調整による中国の医用視覚会話のための微粒化適応型VLMアーキテクチャを提案する。
具体的には、微妙な医用視覚意味論の強化を実現するために、微細な視覚エンコーダを備えた融合モジュールを考案する。
実施にあたっては,病院から得られた大規模マルチモーダル中国語超音波データセットを利用する。
論文 参考訳(メタデータ) (2024-10-19T11:38:31Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models [18.984165679347026]
Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
論文 参考訳(メタデータ) (2024-01-27T02:29:42Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。