論文の概要: Benchmark Success, Clinical Failure: When Reinforcement Learning Optimizes for Benchmarks, Not Patients
- arxiv url: http://arxiv.org/abs/2512.23090v1
- Date: Sun, 28 Dec 2025 21:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.359963
- Title: Benchmark Success, Clinical Failure: When Reinforcement Learning Optimizes for Benchmarks, Not Patients
- Title(参考訳): ベンチマーク成功、臨床失敗:強化学習が患者ではなくベンチマークに最適化されるとき
- Authors: Armin Berger, Manuela Bergau, Helen Schneider, Saad Ahmad, Tom Anglim Lagones, Gianluca Brugnara, Martha Foltyn-Dumitru, Kai Schlamp, Philipp Vollmuth, Rafet Sifa,
- Abstract要約: 我々は,2000個のSFTサンプル,1000個のRLサンプル,1つのA100 GPUを用いて,R1スタイルの方法論(SFTとGRPO)を用いて学習した視覚言語モデルであるChexReasonを紹介する。
GRPOは分配性能(CheXpertでは23%改善、マクロF1 = 0.346)を回復するが、データセット間の転送性(NIHでは19%低下)を低下させる。
我々は,SFTチェックポイントがNIHを最適化する前に一意に改善する一般化パラドックスを同定し,教師が指導する推論がより施設に依存しない特徴を捉えていることを示す。
- 参考スコア(独自算出の注目度): 2.377303603725137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Reinforcement Learning (RL) advances for Large Language Models (LLMs) have improved reasoning tasks, yet their resource-constrained application to medical imaging remains underexplored. We introduce ChexReason, a vision-language model trained via R1-style methodology (SFT followed by GRPO) using only 2,000 SFT samples, 1,000 RL samples, and a single A100 GPU. Evaluations on CheXpert and NIH benchmarks reveal a fundamental tension: GRPO recovers in-distribution performance (23% improvement on CheXpert, macro-F1 = 0.346) but degrades cross-dataset transferability (19% drop on NIH). This mirrors high-resource models like NV-Reason-CXR-3B, suggesting the issue stems from the RL paradigm rather than scale. We identify a generalization paradox where the SFT checkpoint uniquely improves on NIH before optimization, indicating teacher-guided reasoning captures more institution-agnostic features. Furthermore, cross-model comparisons show structured reasoning scaffolds benefit general-purpose VLMs but offer minimal gain for medically pre-trained models. Consequently, curated supervised fine-tuning may outperform aggressive RL for clinical deployment requiring robustness across diverse populations.
- Abstract(参考訳): 大規模言語モデル(LLM)における最近の強化学習(RL)の進歩は推論タスクを改善しているが、そのリソース制約による医療画像への応用は未定である。
我々は,2000個のSFTサンプル,1000個のRLサンプル,1つのA100 GPUを用いて,R1スタイルの方法論(SFTとGRPO)を用いて学習した視覚言語モデルであるChexReasonを紹介する。
GRPOは分配性能(CheXpertでは23%改善、マクロF1 = 0.346)を回復するが、データセット間の転送性(NIHでは19%低下)を低下させる。
これはNV-Reason-CXR-3Bのような高リソースモデルを反映しており、この問題はスケールではなくRLパラダイムに由来することを示唆している。
我々は,SFTチェックポイントがNIHを最適化する前に一意に改善する一般化パラドックスを同定し,教師が指導する推論がより施設に依存しない特徴を捉えていることを示す。
さらに、クロスモデル比較では、構造化推論足場は汎用的なVLMの恩恵を受けるが、医学的に事前訓練されたモデルには最小限の利得を与える。
その結果、調節された微調整は、多種多様な集団にわたる堅牢性を必要とする臨床展開において、攻撃的なRLよりも優れる可能性がある。
関連論文リスト
- Automated Identification of Incidentalomas Requiring Follow-Up: A Multi-Anatomy Evaluation of LLM-Based and Supervised Approaches [5.958100741754613]
インシデントアロマの微細な病変レベル検出のために,大規模言語モデル(LLM)を教師付きベースラインと比較した。
そこで我々は,病変タグ付き入力と解剖学的認識を用いた新しい推論手法を導入し,基礎モデル推論を推し進めた。
解剖学的インフォームドGPT-OSS-20bモデルが最も高い性能を示し, 奇形腫陽性マクロF1の0.79。
論文 参考訳(メタデータ) (2025-12-05T08:49:57Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - BroRL: Scaling Reinforcement Learning via Broadened Exploration [88.69554867685243]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおいて複雑な推論能力を解き放つ鍵となる要素として登場した。
最近のProRLは、トレーニングステップの数を増やすことで、RLのスケーリングを約束している。
RL, BroR-Lineasing the followingary paradigm for scaling RL, BroR-Lincreasing the rollouts per example to hundreds。
論文 参考訳(メタデータ) (2025-10-01T17:59:02Z) - Predicting Diabetic Retinopathy Using a Two-Level Ensemble Model [0.6445605125467574]
糖尿病網膜症は、高齢者の視覚障害の主要な原因である。
画像ベースのAIツールは、早期検出の限界を示している。
実験結果を用いたDR予測のための非画像ベース2レベルアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2025-10-01T16:19:57Z) - Look & Mark: Leveraging Radiologist Eye Fixations and Bounding boxes in Multimodal Large Language Models for Chest X-ray Report Generation [2.821158017021184]
Look & Mark (L&M) は、放射線医学的アイフィクス(Look)とバウンディングボックスアノテーション(Mark)を統合した新しい接地固定戦略である。
LLaVA-OVは87.3%の臨床平均成績(C.AVG)を達成しており、L&Mとインコンテキストラーニングを組み合わせた汎用モデルもすべてのモデルの中で最高である。
論文 参考訳(メタデータ) (2025-05-28T10:54:40Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model [47.108822717757945]
ベースモデルを用いた大規模推論指向RLトレーニングのオープンソース実装として,Open-Reasoner-Zeroを紹介した。
ベンチマーク性能と応答長の両方をスケールアップするのには,GAE とルールベース報酬の単純さが,KL 正規化なしで十分であることを示す。
論文 参考訳(メタデータ) (2025-03-31T16:36:05Z) - Training-free Ultra Small Model for Universal Sparse Reconstruction in Compressed Sensing [39.36305648162564]
本稿では,係数学習(CL)と呼ばれる超小型人工ニューラルモデルを提案する。
CLは、従来の反復的手法の一般性と解釈性を継承しつつ、トレーニング不要で迅速なスパース再構築を可能にする。
代表的反復法と比較して、CLOMPは大規模データの効率を100から1000倍に改善する。
論文 参考訳(メタデータ) (2025-01-20T16:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。