論文の概要: Dissecting Role Cognition in Medical LLMs via Neuronal Ablation
- arxiv url: http://arxiv.org/abs/2510.24677v1
- Date: Tue, 28 Oct 2025 17:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.314252
- Title: Dissecting Role Cognition in Medical LLMs via Neuronal Ablation
- Title(参考訳): 神経アブレーションによる医療用LDMにおける役割認知の分別
- Authors: Xun Liang, Huayi Lai, Hanyu Wang, Wentao Zhang, Linfeng Zhang, Yanfang Chen, Feiyu Xiong, Zhiyu Li,
- Abstract要約: 大規模言語モデル (LLM) は医学的意思決定支援システムにおいて大きな注目を集めている。
一般的な実践であるPBRP(Prompt-Based Role Playing)は、様々な専門的振る舞いをシミュレートするために異なる臨床的役割を採用するようモデルに指示する。
本研究は, RP-Neuron-Activated Evaluation Framework (RPNA)を導入し, LLMにおける役割促進が, 役割特異的認知過程を誘導するか否かを評価する。
- 参考スコア(独自算出の注目度): 40.963253224999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have gained significant traction in medical decision support systems, particularly in the context of medical question answering and role-playing simulations. A common practice, Prompt-Based Role Playing (PBRP), instructs models to adopt different clinical roles (e.g., medical students, residents, attending physicians) to simulate varied professional behaviors. However, the impact of such role prompts on model reasoning capabilities remains unclear. This study introduces the RP-Neuron-Activated Evaluation Framework(RPNA) to evaluate whether role prompts induce distinct, role-specific cognitive processes in LLMs or merely modify linguistic style. We test this framework on three medical QA datasets, employing neuron ablation and representation analysis techniques to assess changes in reasoning pathways. Our results demonstrate that role prompts do not significantly enhance the medical reasoning abilities of LLMs. Instead, they primarily affect surface-level linguistic features, with no evidence of distinct reasoning pathways or cognitive differentiation across clinical roles. Despite superficial stylistic changes, the core decision-making mechanisms of LLMs remain uniform across roles, indicating that current PBRP methods fail to replicate the cognitive complexity found in real-world medical practice. This highlights the limitations of role-playing in medical AI and emphasizes the need for models that simulate genuine cognitive processes rather than linguistic imitation.We have released the related code in the following repository:https: //github.com/IAAR-Shanghai/RolePlay_LLMDoctor
- Abstract(参考訳): 大規模言語モデル (LLM) は医学的意思決定支援システム、特に医学的質問応答やロールプレイングシミュレーションの文脈において大きな注目を集めている。
一般的な実践であるPBRP(Prompt-Based Role Playing)は、様々な臨床的役割(例えば、医学生、研修医、研修医など)を採用するようモデルに指示し、様々な専門的行動をシミュレートする。
しかし、そのような役割がモデル推論能力に与える影響はいまだ不明である。
本研究は, RP-Neuron-Activated Evaluation Framework (RPNA)を導入し, LLMにおける役割刺激が, 役割特異的認知過程を誘導するか, あるいは単に言語的スタイルを変更するかを評価する。
本稿では,3つの医学的QAデータセットを用いて,ニューロンのアブレーションと表現解析技術を用いて推論経路の変化を評価する。
以上の結果から, ロールプロンプトはLLMの医学的推論能力を大幅に向上させるものではないことが示唆された。
その代わりに、主に表面レベルの言語的特徴に影響を及ぼし、臨床的役割の異なる推論経路や認知的分化の証拠は存在しない。
表面的なスタイリスティックな変化にもかかわらず、LLMの中核的な決定機構は役割ごとに均一であり、現在のPBRP法は現実の医療実践で見られる認知の複雑さを再現できないことを示している。
これは、医療AIにおけるロールプレイングの限界を強調し、言語模倣よりも真の認知プロセスをシミュレートするモデルの必要性を強調します。
関連論文リスト
- How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - A Methodology for Explainable Large Language Models with Integrated Gradients and Linguistic Analysis in Text Classification [2.556395214262035]
アルツハイマー病(AD)のような発声に影響を及ぼす神経疾患は、患者と介護者の生活に大きな影響を及ぼす。
近年のLarge Language Model (LLM) アーキテクチャの進歩は、自然発声による神経疾患の代表的特徴を識別する多くのツールを開発した。
本稿では,ADに代表される語彙成分を識別できるSLIME法を提案する。
論文 参考訳(メタデータ) (2024-09-30T21:45:02Z) - Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - When Prompting Fails to Sway: Inertia in Moral and Value Judgments of Large Language Models [4.906478894661688]
大規模言語モデル (LLMs) は非決定論的行動を示し、その出力を所望の方向に向けて操る主要な方法としてプロンプトが登場した。
一般的な戦略の一つは、人間の視点で見られる多様性に似た、より多様で文脈に敏感な反応を誘発するために、特定の「ペルソナ」をモデルに割り当てることである。
我々の実験は、LLMが一貫した値配向を維持することを示した。
特に,特定の道徳的・価値的次元,特に回避と公正さが,さまざまなペルソナ設定にもかかわらず,一方向に明確に歪められたままである,持続的慣性を観察する。
論文 参考訳(メタデータ) (2024-08-16T23:24:10Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Assessing the communication gap between AI models and healthcare
professionals: explainability, utility and trust in AI-driven clinical
decision-making [1.7809957179929814]
本稿では,臨床診断支援のための機械学習モデル(ML)の実用的評価フレームワークを提案する。
この研究は、MLの説明モデルにおいて、これらが臨床的文脈に実用的に埋め込まれているとき、よりニュアンスな役割を明らかにした。
論文 参考訳(メタデータ) (2022-04-11T11:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。