論文の概要: Overalignment in Frontier LLMs: An Empirical Study of Sycophantic Behaviour in Healthcare
- arxiv url: http://arxiv.org/abs/2601.18334v1
- Date: Mon, 26 Jan 2026 10:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.771233
- Title: Overalignment in Frontier LLMs: An Empirical Study of Sycophantic Behaviour in Healthcare
- Title(参考訳): フロンティアLSMにおけるオーバーアライメント : 医療におけるシコファンの行動に関する実証的研究
- Authors: Clément Christophe, Wadood Mohammed Abdul, Prateek Munjal, Tathagata Raha, Ronnie Rajan, Praveenkumar Kanithi,
- Abstract要約: モデル不安定性("Confusability")を考慮してアライメントバイアスを分離する新しい尺度であるAdjusted Sycophancy Scoreを提案する。
以上の結果から, ベンチマーク性能は臨床信頼性の指標ではないことが示唆され, 簡易な推論構造は, 専門家主導の薬効に対して優れた堅牢性をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.9010852820067994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs are increasingly integrated into clinical workflows, their tendency for sycophancy, prioritizing user agreement over factual accuracy, poses significant risks to patient safety. While existing evaluations often rely on subjective datasets, we introduce a robust framework grounded in medical MCQA with verifiable ground truths. We propose the Adjusted Sycophancy Score, a novel metric that isolates alignment bias by accounting for stochastic model instability, or "confusability". Through an extensive scaling analysis of the Qwen-3 and Llama-3 families, we identify a clear scaling trajectory for resilience. Furthermore, we reveal a counter-intuitive vulnerability in reasoning-optimized "Thinking" models: while they demonstrate high vanilla accuracy, their internal reasoning traces frequently rationalize incorrect user suggestions under authoritative pressure. Our results across frontier models suggest that benchmark performance is not a proxy for clinical reliability, and that simplified reasoning structures may offer superior robustness against expert-driven sycophancy.
- Abstract(参考訳): LLMはますます臨床ワークフローに統合されているため、現実の正確性よりもユーザの合意を優先する、梅毒の傾向は患者の安全性に重大なリスクをもたらす。
既存の評価は主観的データセットに依存することが多いが,医学的MCQAを基盤とした堅牢な枠組みを導入する。
本稿では,確率的モデルの不安定性,すなわち「持続可能性」を考慮してアライメントバイアスを分離する新しい尺度であるAdjusted Sycophancy Scoreを提案する。
Qwen-3およびLlama-3ファミリーの広範なスケーリング解析を通じて、レジリエンスの明確なスケーリング軌跡を同定する。
さらに,バニラの精度を高い精度で示す一方で,内部の推論トレースは権威的な圧力下で不正確なユーザ提案を合理化する。
本研究の結果は, ベンチマーク性能が臨床信頼性の指標ではないことを示唆し, 簡易な推論構造は, 専門家主導の梅毒症に対して優れた堅牢性をもたらす可能性が示唆された。
関連論文リスト
- Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。
本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。
その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-27T16:48:53Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Secure Diagnostics: Adversarial Robustness Meets Clinical Interpretability [9.522045116604358]
医用画像分類のためのディープニューラルネットワークは、臨床実践において一貫して一般化することができないことが多い。
本稿では, フラクチャー検出のために微調整された深部ニューラルネットワークの解釈可能性について, 対向攻撃に対するモデル性能の評価により検討する。
論文 参考訳(メタデータ) (2025-04-07T20:26:02Z) - Efficient Epistemic Uncertainty Estimation in Cerebrovascular Segmentation [1.3980986259786223]
ベイズ近似とディープアンサンブルの利点を組み合わせた効率的なアンサンブルモデルを提案する。
高モデル不確実性と誤予測の領域は一致しており、このアプローチの有効性と信頼性を示している。
論文 参考訳(メタデータ) (2025-03-28T09:39:37Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Fragility-aware Classification for Understanding Risk and Improving Generalization [6.926253982569273]
リスク・リバースの観点から分類性能を評価する新しい指標であるFragility Index(FI)を導入する。
我々は, クロスエントロピー損失, ヒンジ型損失, リプシッツ損失の正確な修正を導き, 深層学習モデルへのアプローチを拡張した。
論文 参考訳(メタデータ) (2025-02-18T16:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。