論文の概要: Single Answer is Not Enough: On Generating Ranked Lists with Medical Reasoning Models
- arxiv url: http://arxiv.org/abs/2509.20866v1
- Date: Thu, 25 Sep 2025 07:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.774077
- Title: Single Answer is Not Enough: On Generating Ranked Lists with Medical Reasoning Models
- Title(参考訳): シングルアンサーは十分ではない:医療推論モデルを用いたランキングリストの生成について
- Authors: Pittawat Taveekitworachai, Natpatchara Pongjirapat, Krittaphas Chaisutyakorn, Piyalitt Ittichaiwong, Tossaporn Saengja, Kunat Pipatanakul,
- Abstract要約: 本稿では,医療推論モデルによる回答ランキング作成のための体系的研究について述べる。
本稿では、ランク付けされたリストと2つのアプローチ、即興と微調整の代替フォーマットを提案する。
いくつかのSFTモデルは特定の回答形式に一般化するが、RFTで訓練されたモデルは複数のフォーマットでより堅牢であることを示す。
- 参考スコア(独自算出の注目度): 4.887905909684622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a systematic study on enabling medical reasoning models (MRMs) to generate ranked lists of answers for open-ended questions. Clinical decision-making rarely relies on a single answer but instead considers multiple options, reducing the risks of narrow perspectives. Yet current MRMs are typically trained to produce only one answer, even in open-ended settings. We propose an alternative format: ranked lists and investigate two approaches: prompting and fine-tuning. While prompting is a cost-effective way to steer an MRM's response, not all MRMs generalize well across different answer formats: choice, short text, and list answers. Based on our prompting findings, we train and evaluate MRMs using supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). SFT teaches a model to imitate annotated responses, and RFT incentivizes exploration through the responses that maximize a reward. We propose new reward functions targeted at ranked-list answer formats, and conduct ablation studies for RFT. Our results show that while some SFT models generalize to certain answer formats, models trained with RFT are more robust across multiple formats. We also present a case study on a modified MedQA with multiple valid answers, finding that although MRMs might fail to select the benchmark's preferred ground truth, they can recognize valid answers. To the best of our knowledge, this is the first systematic investigation of approaches for enabling MRMs to generate answers as ranked lists. We hope this work provides a first step toward developing alternative answer formats that are beneficial beyond single answers in medical domains.
- Abstract(参考訳): 本稿では,医療推論モデル(MRMs)を用いて,オープンエンド質問に対する回答のランク付けリストを作成する方法を提案する。
臨床的な意思決定は単一の答えに頼ることはめったにないが、代わりに複数の選択肢を検討し、狭い視点のリスクを減らす。
しかし、現在のMRMは、通常、オープンエンドの設定でも1つの答えしか生成しないよう訓練されている。
本稿では、ランク付けされたリストと2つのアプローチ、即興と微調整の代替フォーマットを提案する。
プロンプトは、MRMのレスポンスを操縦するコスト効率のよい方法であるが、全てのMRMは、選択、短いテキスト、リスト回答など、様々な回答形式でうまく一般化するわけではない。
本研究は,本研究の成果に基づいて,教師付き微調整(SFT)と強化微調整(RFT)を用いてMRMを訓練し,評価する。
SFTは注釈付き応答を模倣するモデルを教え、RFTは報酬を最大化する応答を通して探索をインセンティブ化する。
ランクリストの回答形式を対象とする新たな報酬関数を提案し、RFTのためのアブレーション研究を行う。
以上の結果から,一部のSFTモデルは解答形式に一般化するが,RFTで訓練されたモデルは複数の形式にまたがってより堅牢であることが示唆された。
また、複数の有効な答えを持つ修正MedQAのケーススタディを提示し、MRMはベンチマークの好ましい基礎的真理を選択するのに失敗するかもしれないが、有効な答えを認識できることを示した。
我々の知る限りでは、MRMがランク付けされたリストとして回答を生成できるようにするためのアプローチを体系的に調査するのはこれが初めてである。
この研究が、医療領域における単一の回答以上の有益な、代替の回答フォーマットを開発するための第一歩になることを願っています。
関連論文リスト
- Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition [11.858707687894757]
大共振モデル (LRM) は、最終解を導出する長大なチェーン・オブ・ソート (CoT) に対して批判される。
本稿では,Multi-Turn Decomposition (MinD)を導入し,従来のCoTを明示的,構造化的,ターンワイドなインタラクションのシーケンスにデコードする。
MinDは、出力トークンの使用量と最初のトークンの時間(TTFT)の両方を最大70%削減することができる。
論文 参考訳(メタデータ) (2025-05-26T10:18:57Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Answering Questions by Meta-Reasoning over Multiple Chains of Thought [53.55653437903948]
MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,複数の思考連鎖に対するメタ推論を促す手法である。
MCRは、異なる推論連鎖を調べ、それら間で情報を混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。
論文 参考訳(メタデータ) (2023-04-25T17:27:37Z) - Differentiable Open-Ended Commonsense Reasoning [80.94997942571838]
我々は、自然言語で書かれたコモンセンス事実のコーパスのみを資源として、オープンエンドコモンセンス推論(OpenCSR)について研究する。
OpenCSRへのアプローチとして、知識ファクトに対するマルチホップ推論のための効率的な微分可能なモデルDrFactを提案する。
論文 参考訳(メタデータ) (2020-10-24T10:07:00Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。