Fugu-MT 論文翻訳(概要): When Reasoning Hurts: Source-Aware Evaluation of Frontier LLMs for Clinical SOAP Note Generation

論文の概要: When Reasoning Hurts: Source-Aware Evaluation of Frontier LLMs for Clinical SOAP Note Generation

arxiv url: http://arxiv.org/abs/2605.24902v1
Date: Sun, 24 May 2026 06:58:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.499095
Title: When Reasoning Hurts: Source-Aware Evaluation of Frontier LLMs for Clinical SOAP Note Generation
Title（参考訳）: ハルトを推論する場合:臨床用SOAPノート生成のためのフロンティアLCMのソースアウェア評価
Authors: Faizan Faisal,
Abstract要約: 推論可能なLSMは、医学的推論ベンチマークで強く機能するが、これらが構造化された臨床文書に移行するかどうかは不明だ。 OMI Health, ACI-Bench, PriMock57 にまたがるソース・アウェア・ベンチマークにおいて, 臨床対話からのSOAPノート生成を用いてこの問題を考察する。 GPT-5.4, DeepSeek-V4-Flash, Gemma-4-E4Bを2x2の設計で評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reasoning-enabled LLMs perform strongly on medical reasoning benchmarks, but it remains unclear whether these gains transfer to structured clinical documentation; we investigate this question using SOAP note generation from clinical dialogue in a source-aware benchmark spanning OMI Health, ACI-Bench, and PriMock57. We evaluate GPT-5.4, DeepSeek-V4-Flash, and Gemma-4-E4B in a controlled 2x2 design that independently toggles provider-native reasoning and same-source retrieval-augmented generation (RAG). Outputs are assessed using seven automatic metrics alongside two reference-aware LLM judges. Both evaluation approaches agree that a non-reasoning GPT-5.4 configuration achieves the highest overall quality, while DeepSeek-V4-Flash performs best among reasoning-enabled configurations. Enabling reasoning significantly degrades GPT-5.4 performance across all three datasets, whereas same-source RAG yields smaller, model-dependent improvements. Overall, the findings indicate that stronger reasoning capability should not be assumed to improve fidelity-sensitive SOAP note generation without dedicated, task-specific evaluation.
Abstract（参考訳）: OMI Health, ACI-Bench, PriMock57 にまたがるソース・アウェア・ベンチマークにおいて, 診断可能な LLM は医療推論ベンチマークに強く影響するが, 構造化された臨床文書への転送が得られているかどうかは不明である。 GPT-5.4, DeepSeek-V4-Flash, Gemma-4-E4B を制御した2x2設計で評価した。アウトプットは7つの自動測定値と2つの基準対応LCM判定値を用いて評価される。どちらの評価手法も、非推論GPT-5.4構成が全体的な品質を最高に達成しているのに対して、DeepSeek-V4-Flashは推論可能な構成の中で最良である。推論はGPT-5.4の性能を3つのデータセットで大幅に低下させるが、同ソースのRAGはより小さく、モデルに依存した改善をもたらす。全体として、より強力な推論能力は、専門的なタスク固有の評価なしに、忠実度に敏感なSOAPノート生成を改善するものではないことが示唆されている。

関連論文リスト

When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。 Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文参考訳（メタデータ） (2025-08-15T10:32:50Z)
Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。 O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。 GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文参考訳（メタデータ） (2025-08-13T17:17:17Z)
REARANK: Reasoning Re-ranking Agent via Reinforcement Learning [69.8397511935806]
本稿では,大規模言語モデル(LLM)に基づくリストワイズ推論エージェントREARANKを提案する。 REARANKは、リランク前の明確な理由と、パフォーマンスと解釈性の両方を大幅に改善した。
論文参考訳（メタデータ） (2025-05-26T14:31:48Z)
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。本稿では,RAG システムによって生成される接地回答を評価する際に LLM-as-a-Judge を用いる際の課題に対処する。
論文参考訳（メタデータ） (2024-09-10T15:39:32Z)
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文参考訳（メタデータ） (2024-05-02T17:59:35Z)
Large Language Models in Medical Term Classification and Unexpected Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。 FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文参考訳（メタデータ） (2023-12-19T17:36:48Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。