論文の概要: To Reason or Not to: Selective Chain-of-Thought in Medical Question Answering
- arxiv url: http://arxiv.org/abs/2602.20130v1
- Date: Mon, 23 Feb 2026 18:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.955096
- Title: To Reason or Not to: Selective Chain-of-Thought in Medical Question Answering
- Title(参考訳): 医学的質問応答における選択的連鎖の因果関係について
- Authors: Zaifu Zhan, Min Zeng, Shuang Zhou, Yiran Song, Xiaoyi Chen, Yu Hou, Yifan Wu, Yang Ruan, Rui Zhang,
- Abstract要約: 本稿では,まず,質問が推論を必要とするかどうかを予測し,必要な場合にのみ論理を生成する推論時戦略を提案する。
メトリクスには精度、総生成トークン、推測時間が含まれていた。
選択的CoTは、推論時間を13-45%削減し、トークンの使用量を8-47%削減した。
- 参考スコア(独自算出の注目度): 18.740567440240067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: To improve the efficiency of medical question answering (MedQA) with large language models (LLMs) by avoiding unnecessary reasoning while maintaining accuracy. Methods: We propose Selective Chain-of-Thought (Selective CoT), an inference-time strategy that first predicts whether a question requires reasoning and generates a rationale only when needed. Two open-source LLMs (Llama-3.1-8B and Qwen-2.5-7B) were evaluated on four biomedical QA benchmarks-HeadQA, MedQA-USMLE, MedMCQA, and PubMedQA. Metrics included accuracy, total generated tokens, and inference time. Results: Selective CoT reduced inference time by 13-45% and token usage by 8-47% with minimal accuracy loss ($\leq$4\%). In some model-task pairs, it achieved both higher accuracy and greater efficiency than standard CoT. Compared with fixed-length CoT, Selective CoT reached similar or superior accuracy at substantially lower computational cost. Discussion: Selective CoT dynamically balances reasoning depth and efficiency by invoking explicit reasoning only when beneficial, reducing redundancy on recall-type questions while preserving interpretability. Conclusion: Selective CoT provides a simple, model-agnostic, and cost-effective approach for medical QA, aligning reasoning effort with question complexity to enhance real-world deployability of LLM-based clinical systems.
- Abstract(参考訳): 目的: 精度を維持しつつ不必要な推論を回避し, 大きな言語モデル(LLM)を用いた医療質問応答(MedQA)の効率化を図る。
方法: Selective Chain-of-Thought (Selective CoT) を提案する。
2つのオープンソースLCM(Llama-3.1-8BとQwen-2.5-7B)を、HeadQA、MedQA-USMLE、MedMCQA、PubMedQAの4つのバイオメディカルQAベンチマークで評価した。
メトリクスには精度、総生成トークン、推測時間が含まれていた。
結果:選択CoTは推論時間を13~45%削減し,トークン使用量を8~47%削減した。
いくつかのモデルとタスクのペアでは、標準のCoTよりも高い精度と高い効率を実現した。
固定長のCoTと比較すると、Selective CoTは計算コストがかなり低いほど精度が良くなった。
議論:選択的CoTは、有益な場合にのみ明示的推論を誘発し、解釈可能性を維持しながらリコール型質問の冗長性を低下させることにより、推論の深さと効率を動的にバランスさせる。
結論: Selective CoT は単純で, モデルに依存しない, 費用対効果のある医療用QAのアプローチを提供する。
関連論文リスト
- M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework [10.148124073650349]
Chain-of-Thought(CoT)推論はLarge Language Models(LLMs)を強化する
より長いアウトプットは、レイテンシ、メモリ使用量、KV-cache要求を増加させる。
精度を保ちながらCOTを圧縮する適応型フレームワークSEER(Self-Enhancing Efficient Reasoning)を提案する。
論文 参考訳(メタデータ) (2025-09-17T15:33:44Z) - Instruction Tuning and CoT Prompting for Contextual Medical QA with LLMs [0.12369742273401668]
大規模言語モデル(LLM)は医学的質問応答(MedQA)において大きな可能性を秘めている
PubMedQA 上でのオープンソース LLM の高速設計と軽量微調整が性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-06-13T19:05:18Z) - Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL [26.138061467729212]
第1回AlphaMedは,強化学習(RL)によって推論能力が純粋に現れることを示す最初の医学的LLMである。
AlphaMedは、従来のSFT+RLパイプラインでトレーニングされたモデルよりも優れた6つの医学的QAベンチマークで最先端の結果を達成する。
以上の結果から,データセットの有意性は推論性能の重要な要因であり,複数選択QAデータに対する最小限のRLは,CoTの監督なしに推論を誘導する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T14:27:37Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。
LLMの既存の不確実量化法(UQ)は、応答性よりも応答性の方が早い。
応答型UQフレームワークであるCoT-UQを提案する。
論文 参考訳(メタデータ) (2025-02-24T14:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。