論文の概要: Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains
- arxiv url: http://arxiv.org/abs/2506.02126v1
- Date: Mon, 02 Jun 2025 18:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.920285
- Title: Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains
- Title(参考訳): 知識と推論? LLMがドメイン全体をどのように考えるか
- Authors: Juncheng Wu, Sheng Liu, Haoqin Tu, Hang Yu, Xiaoke Huang, James Zou, Cihang Xie, Yuyin Zhou,
- Abstract要約: この研究は、最終回答の精度を超えて、医学と数学の領域におけるステップバイステップの推論を研究する。
使用した知識の正しさと推論の質を判断する,きめ細かい評価フレームワークを導入する。
この枠組みを用いて,医学・数学領域における教師付き微調整(SFT)および/または強化学習(RL)で訓練されたR1蒸留およびベースQwenモデルについて検討した。
- 参考スコア(独自算出の注目度): 52.86636270242863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reasoning-enhanced Large Language Models such as OpenAI-o1/3 and DeepSeek-R1 have significantly improved performance on complex tasks. However, the quality and transparency of their internal reasoning processes remain underexplored. This work moves beyond the final-answer accuracy and investigates step-by-step reasoning in the medical and mathematical domains by explicitly decomposing the thinking trajectories into two parts: knowledge and reasoning. Specifically, we introduce a fine-grained evaluation framework that judges: (1) the correctness of knowledge used (measured by Knowledge Index (KI)) and (2) the quality of reasoning (measured by Information Gain (InfoGain)). Using this framework, we study R1-distilled and base Qwen models trained with supervised fine-tuning (SFT) and/or reinforcement learning (RL) in the medical and math domains. Three intriguing findings emerge: (1) The general reasoning abilities in R1-distilled models do not transfer effectively to the medical domain through either SFT or RL. (2) SFT raises final-answer accuracy in both domains, but often at the cost of reasoning quality: InfoGain drops by 38.9% on average compared with untrained models; In the medical domain, however, SFT remains crucial because domain knowledge is indispensable. (3) RL enhances medical reasoning by pruning inaccurate or irrelevant knowledge from reasoning paths, thereby improving both reasoning accuracy and knowledge correctness.
- Abstract(参考訳): OpenAI-o1/3やDeepSeek-R1のような推論強化型大規模言語モデルの最近の進歩は、複雑なタスクのパフォーマンスを大幅に改善した。
しかし、内部の推論プロセスの品質と透明性はいまだに未解明のままである。
この研究は、最終回答の精度を超えて進み、思考軌跡を知識と推論の2つの部分に明示的に分解することで、医学と数学の領域におけるステップバイステップの推論を研究する。
具体的には,(1)使用する知識の正しさ(知識指数(KI))と(2)推論の質(情報ゲイン)を判断する,きめ細かい評価枠組みを導入する。
この枠組みを用いて,医学・数学領域における教師付き微調整(SFT)および/または強化学習(RL)で訓練されたR1蒸留およびベースQwenモデルについて検討した。
1)R1蒸留モデルにおける一般的な推論能力は、SFTまたはRLを介して医療領域に効果的に伝達されない。
2) SFTは、両方のドメインにおいて最終回答精度を高めるが、しばしば推論品質のコストがかかる:InfoGainは、トレーニングされていないモデルと比較して平均38.9%低下するが、医療領域では、ドメイン知識が不可欠であるため、SFTは依然として重要である。
(3)RLは、推論経路から不正確な知識や無関係な知識を抽出することにより、医学的推論を強化し、推論精度と知識の正しさを両立させる。
関連論文リスト
- BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs [87.24843751412783]
本稿では,簡潔かつ境界認識の事実推論を促進するフレームワークであるBARRELを提案する。
BARRELトレーニングにより,DeepSeek-R1-Distill-Llama-8Bの信頼性は39.33%から61.48%向上した。
論文 参考訳(メタデータ) (2025-05-18T07:27:34Z) - RARE: Retrieval-Augmented Reasoning Modeling [41.24577920467858]
本稿では,推論最適化から知識記憶を分離する新しいパラダイムであるRetrieval-Augmented Reasoning Modeling (RARE)を提案する。
RAREはドメイン知識を検索可能なソースに外部化し、トレーニング中にドメイン固有の推論パターンを内部化する。
実験により、軽量トレーニングモデル(例えば、Llama-3.1-8B)は、検索強化GPT-4とDeepSeek-R1を約20%の精度で超える、最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2025-03-30T16:49:44Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs [19.448687758457318]
複雑な推論が可能な医療用LLMであるHuatuoGPT-o1は、40K問題のみを使用して、一般および医療固有のベースラインを上回ります。
実験により、複雑な推論は医学的問題解決を改善し、強化学習の恩恵を受けることが示されている。
論文 参考訳(メタデータ) (2024-12-25T15:12:34Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Explainable, Domain-Adaptive, and Federated Artificial Intelligence in
Medicine [5.126042819606137]
我々は、AIによる医療意思決定における特定の課題に対処する3つの主要な方法論的アプローチに焦点を当てる。
ドメイン適応と転送学習により、AIモデルをトレーニングし、複数のドメインにわたって適用することができる。
フェデレーテッド・ラーニングは、機密性の高い個人情報を漏らさずに大規模なモデルを学習することを可能にする。
論文 参考訳(メタデータ) (2022-11-17T03:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。