論文の概要: Surrogate modeling for interpreting black-box LLMs in medical predictions
- arxiv url: http://arxiv.org/abs/2604.20331v2
- Date: Thu, 23 Apr 2026 03:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.048888
- Title: Surrogate modeling for interpreting black-box LLMs in medical predictions
- Title(参考訳): 医療予測におけるブラックボックスLCMのサロゲートモデリング
- Authors: Changho Han, Songsoo Kim, Dong Won Kim, Leo Anthony Celi, Jaewoong Kim, SungA Bae, Dukyong Yoon,
- Abstract要約: 大規模言語モデル(LLM)は、パラメータ内の広範囲の現実世界の知識を符号化するが、そのブラックボックスの性質は、この符号化のメカニズムと範囲を曖昧にしている。
LLM符号化知識を定量的に説明する代理モデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.695036823219393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs), trained on vast datasets, encode extensive real-world knowledge within their parameters, yet their black-box nature obscures the mechanisms and extent of this encoding. Surrogate modeling, which uses simplified models to approximate complex systems, can offer a path toward better interpretability of black-box models. We propose a surrogate modeling framework that quantitatively explains LLM-encoded knowledge. For a specific hypothesis derived from domain knowledge, this framework approximates the latent LLM knowledge space using observable elements (input-output pairs) through extensive prompting across a comprehensive range of simulated scenarios. Through proof-of-concept experiments in medical predictions, we demonstrate our framework's effectiveness in revealing the extent to which LLMs "perceive" each input variable in relation to the output. Particularly, given concerns that LLMs may perpetuate inaccuracies and societal biases embedded in their training data, our experiments using this framework quantitatively revealed both associations that contradict established medical knowledge and the persistence of scientifically refuted racial assumptions within LLM-encoded knowledge. By disclosing these issues, our framework can act as a red-flag indicator to support the safe and reliable application of these models.
- Abstract(参考訳): 膨大なデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、パラメータ内の広範な現実世界の知識を符号化するが、そのブラックボックスの性質は、この符号化のメカニズムと範囲を曖昧にしている。
単純化されたモデルを用いて複雑なシステムを近似するサロゲートモデリングは、ブラックボックスモデルのより良い解釈可能性への道を提供することができる。
LLM符号化知識を定量的に説明する代理モデリングフレームワークを提案する。
ドメイン知識から派生した特定の仮説について、このフレームワークは、包括的なシミュレートされたシナリオをまたいだ広範囲なプロンプトを通じて、観測可能な要素(入出力ペア)を使用して、潜在LLM知識空間を近似する。
医学的予測における概念実証実験を通じて, LLMが各入力変数を「知覚」する範囲を明らかにするための枠組みの有効性を実証した。
特に, LLMがトレーニングデータに埋め込まれた不正確性や社会的偏見を持続する可能性があるという懸念から, この枠組みを用いた実験により, 確立された医学的知識に矛盾する関係と, LLMに符号化された知識に科学的に反する人種的仮定の持続性を定量的に明らかにした。
これらの問題を開示することによって、我々のフレームワークは、これらのモデルの安全で信頼性の高いアプリケーションをサポートするために、レッドフラッグインジケータとして機能する。
関連論文リスト
- Deep Learning-based Method for Expressing Knowledge Boundary of Black-Box LLM [5.711910452650628]
大規模言語モデル(LLM)は目覚ましい成功を収めているが、コンテンツ生成の歪み(幻覚)の出現は、その実践的応用を制限している。
本稿では,ブラックボックスLLMの知識境界を表現する深層学習に基づくLSCL(LLM-Supervised Confidence Learning)を提案する。
論文 参考訳(メタデータ) (2026-02-11T12:42:59Z) - Empowering LLMs for Structure-Based Drug Design via Exploration-Augmented Latent Inference [5.052013621974765]
大言語モデル(LLM)は、表現力と推論能力を持っているが、構造に基づく薬物設計(SBDD)への応用は、タンパク質構造や予測不可能な分子生成の理解が不十分なため制限されている。
本研究では,LLM生成過程を符号化,遅延空間探索,復号化ワークフローとして再解釈するフレームワークであるELILLM(Exploration-Augmented Latent Inference for LLMs)を提案する。
ELILLMは、デコードモジュールを使用して、よく知られた領域を処理し、化学的に有効で合成学的に合理的な分子を生成することで、モデル現在の知識を超えた設計問題の部分を明示的に探求する。
論文 参考訳(メタデータ) (2026-01-20T08:10:48Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph [15.129079475322637]
この研究は、大規模言語モデルが文レベルのクレーム検証のために内部的に表現する事実情報を明らかにする。
本稿では,トークン表現に埋め込まれた事実知識をベクトル空間から基底述語集合にデコードするエンド・ツー・エンドのフレームワークを提案する。
本フレームワークでは,推論中にトークン表現を変更するベクトルレベル手法であるアクティベーションパッチを用いて,符号化された知識を抽出する。
論文 参考訳(メタデータ) (2024-04-04T17:45:59Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z) - Scientific Inference With Interpretable Machine Learning: Analyzing Models to Learn About Real-World Phenomena [4.312340306206884]
解釈可能な機械学習は、モデルを論理的に分析して解釈を導出することで解を提供する。
現在のIML研究は、科学的推論にMLモデルを活用するのではなく、MLモデルの監査に重点を置いている。
本稿では、モデルだけでなく、その表現する現象を照らし出すIMLメソッドを定式化した「プロパティ記述子」を設計するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-11T10:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。