論文の概要: HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
- arxiv url: http://arxiv.org/abs/2412.18925v1
- Date: Wed, 25 Dec 2024 15:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 21:44:05.004668
- Title: HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
- Title(参考訳): HuatuoGPT-o1 : LLMを用いた医療複合体推論に向けて
- Authors: Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang,
- Abstract要約: 複雑な推論が可能な医療用LLMであるHuatuoGPT-o1は、40K問題のみを使用して、一般および医療固有のベースラインを上回ります。
実験により、複雑な推論は医学的問題解決を改善し、強化学習の恩恵を受けることが示されている。
- 参考スコア(独自算出の注目度): 19.448687758457318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The breakthrough of OpenAI o1 highlights the potential of enhancing reasoning to improve LLM. Yet, most research in reasoning has focused on mathematical tasks, leaving domains like medicine underexplored. The medical domain, though distinct from mathematics, also demands robust reasoning to provide reliable answers, given the high standards of healthcare. However, verifying medical reasoning is challenging, unlike those in mathematics. To address this, we propose verifiable medical problems with a medical verifier to check the correctness of model outputs. This verifiable nature enables advancements in medical reasoning through a two-stage approach: (1) using the verifier to guide the search for a complex reasoning trajectory for fine-tuning LLMs, (2) applying reinforcement learning (RL) with verifier-based rewards to enhance complex reasoning further. Finally, we introduce HuatuoGPT-o1, a medical LLM capable of complex reasoning, which outperforms general and medical-specific baselines using only 40K verifiable problems. Experiments show complex reasoning improves medical problem-solving and benefits more from RL. We hope our approach inspires advancements in reasoning across medical and other specialized domains.
- Abstract(参考訳): OpenAI o1のブレークスルーは、LCMを改善するための推論を強化する可能性を強調している。
しかし、推論のほとんどの研究は数学的なタスクに焦点を合わせており、医学のような領域は未探索のままである。
医学分野は数学とは別物ではあるが、高い医療水準を考慮すると、信頼できる回答を提供するために堅牢な推論を要求する。
しかし、数学とは異なり、医学的推論を検証することは困難である。
そこで本研究では,モデル出力の正当性を確認するために,医療検証器を用いて検証可能な医療問題を提案する。
この検証可能な性質は, 医学的推論の進歩を2段階のアプローチで実現し, 1) 検証者を用いて微調整LSMの複雑な推論軌道の探索を誘導し, 2) 検証者に基づく報酬による強化学習(RL)を適用し, 複雑な推論をさらに強化する。
最後に,HuatuoGPT-o1を導入した。これは複雑な推論が可能な医療用LCMであり,40K問題のみを用いて,一般および医療用ベースラインよりも優れている。
実験では、複雑な推論が医学的問題解決を改善し、RLの利点が増すことが示されている。
当社のアプローチが、医療や他の専門分野における推論の進歩を促すことを願っています。
関連論文リスト
- Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs [23.50838763761289]
我々は、厳密で効果的な医療連鎖データを生成するために、Mentor-Intern Collaborative Search (MICS)を提案する。
推論性能は、生成された推論パスの品質を評価するMICSスコアによって決定される。
最終的に、難易度の高いマルチタスク医療推論データセットであるMMRPと、カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文 参考訳(メタデータ) (2025-06-20T12:51:19Z) - Med-U1: Incentivizing Unified Medical Reasoning in LLMs via Large-scale Reinforcement Learning [20.878972841860975]
本稿では,医療質問応答(QA)タスクにおける頑健な推論のための統一的枠組みであるMed-U1を提案する。
多目的報酬最適化により、Med-U1 は LLM に簡潔で検証可能な推論連鎖を生成するよう指示する。
実験の結果、Med-U1は複数の挑戦的なMed-QAベンチマークでパフォーマンスを著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-06-14T02:00:36Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [44.96018028534255]
ReasonMedは最大の医学推論データセットであり、最初の170万の推論パスから370万の高品質なサンプルを抽出した。
我々は、サブ10Bモデルのベンチマークを新たに設定したReasonMed-7Bを4.17%上回り、PubMedQAのLLaMA3.1-70Bを4.60%上回っている。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains [52.86636270242863]
この研究は、最終回答の精度を超えて、医学と数学の領域におけるステップバイステップの推論を研究する。
使用した知識の正しさと推論の質を判断する,きめ細かい評価フレームワークを導入する。
この枠組みを用いて,医学・数学領域における教師付き微調整(SFT)および/または強化学習(RL)で訓練されたR1蒸留およびベースQwenモデルについて検討した。
論文 参考訳(メタデータ) (2025-06-02T18:01:00Z) - Talk Before You Retrieve: Agent-Led Discussions for Better RAG in Medical QA [17.823588070044217]
本稿では,医療質問応答システムを強化するためのプラグアンドプレイモジュールであるDisdisuss-RAGを提案する。
本手法では,多ターンブレインストーミングをエミュレートする医療専門家のチームを編成し,検索内容の関連性を向上する要約エージェントを提案する。
4つのベンチマーク医学QAデータセットによる実験結果から、DEC-RAGはMedRAGより一貫して優れていた。
論文 参考訳(メタデータ) (2025-04-30T01:37:44Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Critique of Impure Reason: Unveiling the reasoning behaviour of medical Large Language Models [0.0]
医学領域全体でのLLM(Large Language Models)の普及にもかかわらず、彼らの推論行動に対処する研究が驚くほど不足している。
この文脈では、説明可能なAI(XAI)と等価であるため、高いレベルの予測精度とは対照的に、推論行動を理解することの重要性を強調している。
論文 参考訳(メタデータ) (2024-12-20T10:06:52Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - From Beginner to Expert: Modeling Medical Knowledge into General LLMs [22.475129648458136]
大規模言語モデル(LLM)に基づく人工知能(AI)システムは、自然言語の理解と生成において顕著な能力を示した。
これらのモデルは、医学的な知識を推論したり、医師のような方法で医学的な疑問に答えたりするといった、繊細な応用に関して重要な課題に直面している。
本研究は、事前訓練された一般LLMモデル(AntGLM-10B)から始まり、医療初心者から医療専門家(AntGLM-Med-10B)に微調整する。
論文 参考訳(メタデータ) (2023-12-02T05:54:06Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - Can large language models reason about medical questions? [7.95779617839642]
実世界の難解な質問に対する回答と推論に,オープンソースモデルとクローズドモデルを適用することができるかを検討する。
我々は、MedQA-USMLE、MedMCQA、PubMedQAの3つの人気のある医療ベンチマークと複数のプロンプトシナリオに焦点を当てた。
生成されたCoTのエキスパートアノテーションに基づいて、InstructGPTは専門家の知識を読み、分析し、リコールすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-17T11:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。