論文の概要: OctoMed: Data Recipes for State-of-the-Art Multimodal Medical Reasoning
- arxiv url: http://arxiv.org/abs/2511.23269v1
- Date: Fri, 28 Nov 2025 15:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.958905
- Title: OctoMed: Data Recipes for State-of-the-Art Multimodal Medical Reasoning
- Title(参考訳): OctoMed: 最先端マルチモーダル医療推論のためのデータ準備
- Authors: Timothy Ossowski, Sheng Zhang, Qianchu Liu, Guanghui Qin, Reuben Tan, Tristan Naumann, Junjie Hu, Hoifung Poon,
- Abstract要約: 医療領域におけるロバストなマルチモーダル推論モデルを構築するためのトレーニングとデータキュレーションの戦略について検討する。
実験を800万以上のサンプルと680億の応答トークンのデータセットにスケールします。
この結果から,高度で多様な学習データセットを様々な構造的推論トレース長でキュレートすることで,微調整モデルによる推論軌道長の自己校正が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 26.144214758141874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality and carefully curated data is a cornerstone of training medical large language models, as it directly impacts both generalization and robustness to unseen clinical tasks. We investigate strategies for training and data curation to develop a robust multimodal reasoning model in the medical domain. Our work focuses on supervised fine-tuning (SFT) and explores data recipes that leverage structured reasoning traces. Using our proposed data recipe, we scale experiments to a dataset of over 8 million examples and 6.8 billion response tokens, achieving state-of-the-art performance among open-source models across diverse out-of-distribution medical benchmark tasks. Our results further indicate that curating a high-quality, diverse training dataset with varying structured reasoning trace lengths enables the fine-tuned model to self-calibrate its reasoning trajectory lengths based on the downstream task, without explicit supervision. We present key insights, describe the data curation strategy, and outline next steps toward developing robust medical vision-language reasoning system.
- Abstract(参考訳): 高品質で慎重にキュレートされたデータは、一般化と堅牢性の両方に直接影響するため、医療用大言語モデルのトレーニングの基盤となる。
医療領域におけるロバストなマルチモーダル推論モデルを構築するためのトレーニングとデータキュレーションの戦略について検討する。
我々の研究は、教師付き微調整(SFT)に焦点を当て、構造化された推論トレースを利用するデータレシピを探索する。
提案したデータレシピを使用して、実験を800万以上のサンプルと680億のレスポンストークンのデータセットにスケールし、さまざまなアウトオブディストリビュート医療ベンチマークタスクにわたるオープンソースのモデル間の最先端のパフォーマンスを達成する。
さらに,高品質で多様な学習データセットを各種構造的推論トレース長でキュレートすることで,ダウンストリームタスクに基づく推論軌道長の自己校正を行うことができることを示す。
我々は、重要な洞察を示し、データキュレーション戦略を説明し、堅牢な医療ビジョン言語推論システムの開発に向けた次のステップを概説する。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Multimodal Foundation Models for Early Disease Detection [0.0]
本稿では、注意に基づくトランスフォーマーフレームワークを通じて、多様な患者データを統合する基礎モデルを提案する。
このアーキテクチャは、多くのタスクを事前トレーニングするために作られており、新しい病気やデータセットへの適応を、余分な作業で簡単に行える。
我々は、早期検出タスクのテストを目的として、腫瘍学、心臓学、神経学のベンチマークデータセットを使用する実験戦略を提供する。
論文 参考訳(メタデータ) (2025-10-02T11:12:57Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Efficient Medical VIE via Reinforcement Learning [10.713109515157475]
ビジュアル情報抽出(VIE)は、構造化されていない文書イメージを、レポート分析やオンラインコンサルティングといった医療応用に不可欠な構造化フォーマットのような構造化フォーマットに変換する。
従来の手法はOCRと言語モデルに依存し、エンドツーエンドのマルチモーダルモデルは直接生成を提供する。
我々は、100の注釈付きサンプルを使用してこれらの課題に対処するために、Reinforcement Learning with Verifiable Rewards(RLVR)フレームワークをベースとしています。
論文 参考訳(メタデータ) (2025-06-16T11:10:25Z) - Confounder-Aware Medical Data Selection for Fine-Tuning Pretrained Vision Models [11.10271979935354]
医用データセットキュレーションのための共同設立者対応医療データ選択手法を提案する。
提案手法は,まずデータ内の変数を識別し,距離に基づくデータ選択戦略を開発する。
多様な医用画像モダリティの広範な実験を通じて,アプローチの優位性を検証した。
論文 参考訳(メタデータ) (2025-03-02T05:50:25Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - P-Transformer: A Prompt-based Multimodal Transformer Architecture For Medical Tabular Data [2.4688646371447898]
医用表データに特化して設計されたマルチモーダルアンダーライントランスフォーマアーキテクチャであるPTransformerを提案する。
このフレームワークは、構造化データと非構造化データの両方から、多彩なモダリティを調和した言語意味空間に効率的にエンコードする。
PTransformerは、RMSE/MAEで10.9%/11.0%、RMSE/MAEで0.5%/2.2%、BACC/AUROCで1.6%/0.8%の改善を実証した。
論文 参考訳(メタデータ) (2023-03-30T14:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。