論文の概要: Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data
- arxiv url: http://arxiv.org/abs/2508.01450v1
- Date: Sat, 02 Aug 2025 17:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.883314
- Title: Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data
- Title(参考訳): 極小微調整データを用いた医用推論の効率化に向けて
- Authors: Xinlin Zhuang, Feilong Tang, Haolin Yang, Ming Hu, Huifa Li, Haochen Xue, Yichen Li, Junjun He, Zongyuan Ge, Ying Qian, Imran Razzak,
- Abstract要約: Supervised Fine-Tuning (SFT)は、医学的推論などの専門分野にLarge Language Models (LLM)を適用する上で重要な役割を担っている。
既存の手法では、知識と推論の複雑さによって定義されるサンプルの難易度に基づいてデータを選択することで、この問題を緩和しようとする。
本稿では,高拡散高影響クアドラントのサンプルを優先するデータ選択戦略であるDIQを提案する。
- 参考スコア(独自算出の注目度): 30.407699113696076
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Supervised Fine-Tuning (SFT) plays a pivotal role in adapting Large Language Models (LLMs) to specialized domains such as medical reasoning. However, existing SFT practices often rely on unfiltered datasets that contain redundant and low-quality samples, leading to substantial computational costs and suboptimal performance. Although existing methods attempt to alleviate this problem by selecting data based on sample difficulty, defined by knowledge and reasoning complexity, they overlook each sample's optimization utility reflected in its gradient. Interestingly, we find that gradient-based influence alone favors easy-to-optimize samples that cause large parameter shifts but lack deep reasoning chains, while difficulty alone selects noisy or overly complex cases that fail to guide stable optimization. Based on this observation, we propose a data selection strategy, Difficulty-Influence Quadrant (DIQ), which prioritizes samples in the high-difficulty-high-influence quadrant to balance complex clinical reasoning with substantial gradient influence, enabling efficient medical reasoning with minimal fine-tuning data. Furthermore, Human and LLM-as-a-judge evaluations show that DIQ-selected subsets demonstrate higher data quality and generate clinical reasoning that is more aligned with expert practices in differential diagnosis, safety check, and evidence citation, as DIQ emphasizes samples that foster expert-like reasoning patterns. Extensive experiments on medical reasoning benchmarks demonstrate that DIQ enables models fine-tuned on only 1% of selected data to match full-dataset performance, while using 10% consistently outperforms the baseline, highlighting the superiority of principled data selection over brute-force scaling. The code and data are available at https://github.com/mihara-bot/DIQ.
- Abstract(参考訳): Supervised Fine-Tuning (SFT)は、医学的推論などの専門分野にLarge Language Models (LLM)を適用する上で重要な役割を担っている。
しかし、既存のSFTのプラクティスは、しばしば冗長で低品質なサンプルを含む未フィルタリングデータセットに依存し、かなりの計算コストと準最適性能をもたらす。
既存の手法では、知識と推論の複雑さによって定義されるサンプルの難易度に基づいてデータを選択することで、この問題を緩和しようとするが、各サンプルの最適化ユーティリティはその勾配に反映されているのを見落としている。
興味深いことに、勾配に基づく影響だけでは、大きなパラメータシフトを引き起こすが、深い推論連鎖が欠如しているサンプルを最適化し易くすることを好む一方、難易度だけでは、安定した最適化を導くのに失敗するノイズや過度に複雑なケースを選択する。
本研究はDIQ (Difficulty-Influence Quadrant) というデータ選択戦略を提案する。DIQは,高拡散度4次管内の試料を優先し,複雑な臨床推論と実質的な勾配の影響をバランスさせ,最小限の微調整データによる効率的な医療推論を可能にする。
さらに,DIQとLLM-as-a-judgeの評価では,DIQが選択したサブセットは高いデータ品質を示し,鑑別診断や安全性チェック,エビデンス引用といった専門家の実践と整合した臨床推論を生成することが示されており,DIQは専門家のような推論パターンを育成するサンプルを強調している。
医学推論ベンチマークに関する大規模な実験により、DIQは、選択されたデータの1%のみを微調整して、フルデータセットのパフォーマンスに適合するモデルを可能にする一方で、10%の使用は、ブルートフォーススケーリングよりも原則化されたデータ選択の優位性を強調しながら、ベースラインを一貫して上回ることが示されている。
コードとデータはhttps://github.com/mihara-bot/DIQで公開されている。
関連論文リスト
- InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - TACOS: Open Tagging and Comparative Scoring for Instruction Fine-Tuning Data Selection [9.020110377060153]
We present TACOS, a innovative method that integrates Open Tagging and Comparison Scoring for IFT data selection。
データの多様性を捉えるために、LLMを活用して、オープンドメインタグを人間のクエリに割り当てる。
本稿では,クラスタ内のサンプルの相対的品質評価を可能にする比較評価手法を提案する。
論文 参考訳(メタデータ) (2025-07-04T15:46:07Z) - A Novel Double Pruning method for Imbalanced Data using Information Entropy and Roulette Wheel Selection for Breast Cancer Diagnosis [2.8661021832561757]
SMOTEBoost法はデータセットのバランスをとるために合成データを生成するが、決定境界付近で重要な重複する領域を見落としてしまう可能性がある。
本稿では,SMOTEBoostの拡張版であるRE-SMOTEBoostを提案する。
情報エントロピーに基づくフィルタリング機構を組み込んで、ノイズや境界ケースを低減し、生成されたデータの品質を向上させる。
論文 参考訳(メタデータ) (2025-03-15T19:34:15Z) - FastMCTS: A Simple Sampling Strategy for Data Synthesis [67.60823802317141]
我々はモンテカルロ木探索にインスパイアされた革新的なデータ合成戦略であるFastMCTSを紹介する。
FastMCTSは、ステップレベルの評価信号を提供するマルチステップ推論データに対して、より効率的なサンプリング方法を提供する。
英語と中国語の両方の推論データセットの実験では、FastMCTSが30%以上の正しい推論パスを生成することが示されている。
論文 参考訳(メタデータ) (2025-02-17T06:27:57Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。