論文の概要: Reason2Decide: Rationale-Driven Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2512.20074v1
- Date: Tue, 23 Dec 2025 05:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.762937
- Title: Reason2Decide: Rationale-Driven Multi-Task Learning
- Title(参考訳): Reason2Decide: ラリー駆動型マルチタスク学習
- Authors: H M Quamran Hasan, Housam Khalifa Bashier, Jiayi Dai, Mi-Young Kim, Randy Goebel,
- Abstract要約: 本稿では、露出バイアスやタスク分離など、自己合理的化における重要な課題に対処する2段階のトレーニングフレームワークを提案する。
プロプライエタリなトリアージデータセットと公開バイオメディカルQAデータセットを含む,3つの医療データセットに対するReason2Decideの評価を行った。
- 参考スコア(独自算出の注目度): 1.4212625627319098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the wide adoption of Large Language Models (LLM)s, clinical decision support systems face a critical challenge: achieving high predictive accuracy while generating explanations aligned with the predictions. Current approaches suffer from exposure bias leading to misaligned explanations. We propose Reason2Decide, a two-stage training framework that addresses key challenges in self-rationalization, including exposure bias and task separation. In Stage-1, our model is trained on rationale generation, while in Stage-2, we jointly train on label prediction and rationale generation, applying scheduled sampling to gradually transition from conditioning on gold labels to model predictions. We evaluate Reason2Decide on three medical datasets, including a proprietary triage dataset and public biomedical QA datasets. Across model sizes, Reason2Decide outperforms other fine-tuning baselines and some zero-shot LLMs in prediction (F1) and rationale fidelity (BERTScore, BLEU, LLM-as-a-Judge). In triage, Reason2Decide is rationale source-robust across LLM-generated, nurse-authored, and nurse-post-processed rationales. In our experiments, while using only LLM-generated rationales in Stage-1, Reason2Decide outperforms other fine-tuning variants. This indicates that LLM-generated rationales are suitable for pretraining models, reducing reliance on human annotations. Remarkably, Reason2Decide achieves these gains with models 40x smaller than contemporary foundation models, making clinical reasoning more accessible for resource-constrained deployments while still providing explainable decision support.
- Abstract(参考訳): LLM(Large Language Models)が広く採用されているにもかかわらず、臨床決定支援システムは、予測に適合した説明を生成しながら高い予測精度を達成するという、重大な課題に直面している。
現在のアプローチは露光バイアスに悩まされており、誤った説明がなされている。
Reason2Decideは2段階のトレーニングフレームワークで、露出バイアスやタスク分離といった自己規制の課題に対処する。
ステージ1では,本モデルでは有理数生成を訓練し,ステージ2ではラベル予測と有理数生成を共同でトレーニングし,ゴールドラベルの条件付けからモデル予測へ段階的に移行するスケジュールサンプリングを適用した。
プロプライエタリなトリアージデータセットと公開バイオメディカルQAデータセットを含む,3つの医療データセットに対するReason2Decideの評価を行った。
モデルサイズ全体にわたって、Reason2Decideは、他の微調整ベースラインと予測におけるゼロショットLLM(F1)および有理的忠実度(BERTScore, BLEU, LLM-as-a-Judge)より優れる。
トリアージにおいて、Reason2Decide は LLM の生成、看護師の認可、看護後処理の合理性に対して、ソース・ロバストな理性である。
実験では,Stage-1 において LLM 生成した有理量のみを用いることで,Reason2Decide は他の微調整変種よりも優れた性能を発揮する。
このことは、LLM生成論理が事前学習モデルに適していることを示し、人間のアノテーションへの依存を減らしている。
注目すべきは、Reason2Decideは、現代の基礎モデルよりも40倍小さいモデルでこれらの利益を達成し、説明可能な意思決定サポートを提供しながら、リソース制約されたデプロイメントに対して臨床上の理由付けがより容易に行えるようにすることである。
関連論文リスト
- OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Audited Reasoning Refinement: Fine-Tuning Language Models via LLM-Guided Step-Wise Evaluation and Correction [1.41282143488996]
人間の直接監督や高品質なラベルが不足している場合、タスク固有の小さな推論モデルのトレーニングは困難である。
本稿では,Reason-Refine-then-Align (R2tA)を提案する。
論文 参考訳(メタデータ) (2025-09-15T21:47:52Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - Reasoning on a Spectrum: Aligning LLMs to System 1 and System 2 Thinking [2.8972218767527527]
大きな言語モデル(LLM)は印象的な推論能力を示すが、構造化されたステップバイステップの推論に依存しているため、限界が示される。
この作業は、ステップバイステップの推論が常に最適であるという仮定に挑戦し、タスク要求に基づいた推論戦略を適用する必要性を強調します。
論文 参考訳(メタデータ) (2025-02-18T02:58:37Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。