論文の概要: Internal Representation, Not Clinical Knowledge: Where Apparent LLM Triage Failures Originate
- arxiv url: http://arxiv.org/abs/2605.29889v1
- Date: Thu, 28 May 2026 13:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.334621
- Title: Internal Representation, Not Clinical Knowledge: Where Apparent LLM Triage Failures Originate
- Title(参考訳): 内的表現, 臨床知識の欠如--ALMトリアージ障害の起点として
- Authors: David Fraile Navarro, Berardino Como, Jialei Sheng, Soundariya Ananthan, Shlomo Berkovsky,
- Abstract要約: 患者投票型臨床トリアージベンチマークでは、制約付き多重選択出力における消費者LCMの低トライアージ率が高いことが報告されている。
両フォーマットで共有された臨床物語に同一の医療的特徴が現れるが、すべてのモデルにおいて、複数の選択決定トークンに沈黙する。
- 参考スコア(独自算出の注目度): 2.581200752140087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patient-voiced clinical-triage benchmarks report high under-triage rates for consumer LLMs for constrained multiple-choice output, yet the same cases score differently with free-text. We ask whether output format changes the model's \emph{clinical representation} or only the mapping from a preserved representation to an answer. Using sparse-autoencoder (SAE) features in Gemma 3 4B/12B IT and Qwen3-8B, we find the same medical features fire on the shared clinical narrative under both formats but go {silent} at the multiple-choice decision token in all the cases at every model. Three independent methods (natural-language autoencoder verbalization, decision-token logit attribution, and top-feature characterization) agree that scaffold and format features, but not medical features, drive the decision logits. Behaviorally, the multiple-choice penalty inverts under both structured and natural-language input, option-order shuffle rules out positional bias, and the gap is dominated by off-by-one decision (the model picks an adjacent acuity letter to the gold answer) rather than knowledge failure. Thus, the failure originates in the output format and not in the clinical representation.
- Abstract(参考訳): 患者投票による臨床トリアージ・ベンチマークでは、制約付き複数選択出力に対する消費者LLMの低収率が高いが、同じケースがフリーテキストで異なる。
出力形式がモデルの \emph{clinical representation} を変更するのか、あるいは保存された表現から回答へのマッピングのみを変更するのかを問う。
Gemma 3 4B/12B IT と Qwen3-8B のスパースオートエンコーダ (SAE) 機能を用いて, 両フォーマットで共有された臨床物語に同一の医療的特徴が発火するが, いずれのモデルにおいても, いずれのモデルにおいても, マルチチョイス判定トークンに {silent} が現れる。
3つの独立した方法(自然言語の自動エンコーダの動詞化、意思決定のためのロジット属性、および上位機能評価)は、足場とフォーマットの特徴は医療的特徴ではなく、決定ロジットを駆動することに同意している。
行動的には、複数選択のペナルティは構造化された入力と自然言語の入力の両方で逆転し、オプション順序のシャッフルは位置バイアスを排除し、ギャップは知識の失敗よりもオフ・バイ・ワンの判断(モデルがゴールドの答えに隣接するアキューティ・レターを選択する)に支配される。
したがって、失敗は出力形式に起因し、臨床表現に起因しない。
関連論文リスト
- Judge Circuits [24.717818484378583]
Gemma-3,Qwen2.5,Llama-3の内部機構について検討した。
構造化された理解とオープンな嗜好タスクによる判断は、疎結合で一般化された潜在評価器のサブグラフを共有する。
我々は,オープンウェイトモデルにおける形式に起因した不整合の力学的説明を提供する。
論文 参考訳(メタデータ) (2026-05-15T14:57:21Z) - CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine [9.346299965194746]
CLEAR(CLinical Evaluation of Ambiguity and Reliability)フレームワークについて紹介する。
CLEARは、妥当な回答オプションの数、根拠となる真実または棄権オプションの存在、および回答オプションの意味的なフレーミングを混乱させる。
17の医療用大言語モデルで評価された3つのベンチマークにCLEARを適用すると、3つの注目すべき制限が明らかになる。
論文 参考訳(メタデータ) (2026-05-01T18:23:24Z) - Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine [51.722324399751294]
大規模言語モデルは、自律的な診断エージェントとしてますますデプロイされているが、基本的に異なる2つの機能を説明する。
本稿では,言語と推論を厳格に分離するモジュール型診断対話フレームワークBMBEを紹介する。
論文 参考訳(メタデータ) (2026-04-21T21:59:57Z) - One Panel Does Not Fit All: Case-Adaptive Multi-Agent Deliberation for Clinical Prediction [10.760929240872564]
本稿では, CAMP (Case-Adaptive Multi-agent Panel) を提案する。
ハイブリッドルータは、強いコンセンサス、出席医の判断へのフォールバック、または投票数よりも議論品質を重くする証拠に基づく仲裁を通じて、それぞれの診断を指示する。
CAMPは、多くの競合するマルチエージェントメソッドよりも少ないトークンを消費しながら、強力なベースラインを一貫して上回り、投票記録と、透明な決定監査を提供する仲裁トレースを提供する。
論文 参考訳(メタデータ) (2026-03-31T18:00:34Z) - DiffVP: Differential Visual Semantic Prompting for LLM-Based CT Report Generation [18.257492970454898]
DiffVP (differial Visual Prompting) を提案する。
2つの大規模ベンチマークにおいて、DiffVPは従来手法より一貫して優れ、平均のBLEU-1-4を+10.98と+4.36で改善した。
論文 参考訳(メタデータ) (2026-03-18T13:38:26Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - MEDEQUALQA: Evaluating Biases in LLMs with Counterfactual Reasoning [7.167933033102407]
重篤な症状と症状を一定に保ちながら,患者代名詞のみを摂動する反ファクト・ベンチマークであるMEDEQUALQAを紹介する。
我々は、GPT-4.1モデルを評価し、代名詞の変種間の安定性を測定するために、推論トレース間のセマンティックテキスト類似性(STS)を計算する。
以上の結果から,総じて高い類似性(平均STS >0.80)を示した。
論文 参考訳(メタデータ) (2025-10-09T22:12:58Z) - Self-ensemble: Mitigating Confidence Mis-calibration for Large Language Models [67.62810111789338]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。
この問題を解決するために自己組織化を提案する。
3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文 参考訳(メタデータ) (2025-06-02T17:59:29Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。