論文の概要: Mechanistic Interpretability of LoRA-Adapted Language Models for Nuclear Reactor Safety Applications
- arxiv url: http://arxiv.org/abs/2507.09931v1
- Date: Mon, 14 Jul 2025 05:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.277366
- Title: Mechanistic Interpretability of LoRA-Adapted Language Models for Nuclear Reactor Safety Applications
- Title(参考訳): 原子炉安全のためのLoRA適応言語モデルの機械論的解釈可能性
- Authors: Yoon Pyo Lee,
- Abstract要約: 本稿では,大規模言語モデルがどのようにドメイン固有知識を符号化し利用しているかを解釈する新しい手法を提案する。
我々は、Low-Rank Adaptationと呼ばれるパラメータ効率の高い微調整技術を用いて、汎用LDMを核ドメインに適応させた。
基礎モデルのニューロンの活性化パターンと微調整モデルの活性化パターンを比較して,行動が著しく変化したスパースニューロン群を同定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Large Language Models (LLMs) into safety-critical domains, such as nuclear engineering, necessitates a deep understanding of their internal reasoning processes. This paper presents a novel methodology for interpreting how an LLM encodes and utilizes domain-specific knowledge, using a Boiling Water Reactor system as a case study. We adapted a general-purpose LLM (Gemma-3-1b-it) to the nuclear domain using a parameter-efficient fine-tuning technique known as Low-Rank Adaptation. By comparing the neuron activation patterns of the base model to those of the fine-tuned model, we identified a sparse set of neurons whose behavior was significantly altered during the adaptation process. To probe the causal role of these specialized neurons, we employed a neuron silencing technique. Our results demonstrate that while silencing most of these specialized neurons individually did not produce a statistically significant effect, deactivating the entire group collectively led to a statistically significant degradation in task performance. Qualitative analysis further revealed that silencing these neurons impaired the model's ability to generate detailed, contextually accurate technical information. This paper provides a concrete methodology for enhancing the transparency of an opaque black-box model, allowing domain expertise to be traced to verifiable neural circuits. This offers a pathway towards achieving nuclear-grade artificial intelligence (AI) assurance, addressing the verification and validation challenges mandated by nuclear regulatory frameworks (e.g., 10 CFR 50 Appendix B), which have limited AI deployment in safety-critical nuclear operations.
- Abstract(参考訳): 大規模言語モデル(LLM)を核工学のような安全クリティカルな領域に統合するには、それらの内部推論プロセスの深い理解が必要である。
本稿では, 沸騰水反応器を事例として, LLMがドメイン固有知識をどのように符号化し, 利用しているかを解釈する新しい手法を提案する。
我々は,Low-Rank Adaptationと呼ばれるパラメータ効率のよい微調整技術を用いて,汎用LDM(Gemma-3-1b-it)を核ドメインに適応させた。
基礎モデルのニューロンの活性化パターンと微調整モデルの活性化パターンを比較して,適応過程において行動が著しく変化したスパースニューロン群を同定した。
これらのニューロンの因果的役割を解明するために,我々はニューロンサイレンシング技術を用いた。
その結果, 個々のニューロンのサイレンシングは統計的に有意な効果は得られなかったが, 群全体の不活性化はタスク性能の統計的に有意な低下を招いた。
質的な分析により、これらのニューロンをサイレンシングすることは、詳細な、文脈的に正確な技術情報を生成するモデルの能力を損なうことが明らかとなった。
本稿では、不透明なブラックボックスモデルの透明性を高めるための具体的な方法論を提供し、ドメインの専門知識を検証可能なニューラルネットワークにトレースできるようにする。
これは核グレード人工知能(AI)の保証を達成するための道筋を提供し、安全クリティカルな核運用におけるAIの展開を制限する、核規制フレームワーク(例:10 CFR 50 Appendix B)によって課される検証と検証の課題に対処する。
関連論文リスト
- Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。
本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。
本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文 参考訳(メタデータ) (2025-07-12T08:10:10Z) - NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [68.89389652724378]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、実際の実験データに基づいて検証された最初のスケールアップされたディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - Neural DNF-MT: A Neuro-symbolic Approach for Learning Interpretable and Editable Policies [51.03989561425833]
本稿では、エンドツーエンドポリシー学習のためのニューラルDNF-MTと呼ばれるニューラルシンボリックアプローチを提案する。
ニューラルDNF-MTモデルの微分可能な性質は、訓練にディープアクター批判アルゴリズムを使用することを可能にする。
決定論的ポリシーの2値表現をどのように編集し、ニューラルモデルに組み込むかを示す。
論文 参考訳(メタデータ) (2025-01-07T15:51:49Z) - Axiomatic Causal Interventions for Reverse Engineering Relevance Computation in Neural Retrieval Models [20.29451537633895]
本稿では,ニューラルランサーのリバースエンジニアリングにおける因果介入法を提案する。
本稿では, 項周波数公理を満たす成分を分離するために, 機械的解釈可能性法をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2024-05-03T22:30:15Z) - Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks [0.6282171844772422]
大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。
バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
論文 参考訳(メタデータ) (2024-02-16T09:29:38Z) - The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。
ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。
新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2024-02-02T20:33:14Z) - Neuro-symbolic model for cantilever beams damage detection [0.0]
本稿では,新しい認知アーキテクチャに基づくカンチレバービームの損傷検出のためのニューロシンボリックモデルを提案する。
ハイブリッド識別モデルはLogic Convolutional Neural Regressorという名称で導入されている。
論文 参考訳(メタデータ) (2023-05-04T13:12:39Z) - Explaining the Deep Natural Language Processing by Mining Textual
Interpretable Features [3.819533618886143]
T-EBAnOは、深層自然言語モデルに適した、予測ローカルでクラスベースのモデル-言語的説明戦略である。
自動意思決定プロセスの背後にある理由について、客観的で、人間可読で、ドメイン固有の評価を提供する。
論文 参考訳(メタデータ) (2021-06-12T06:25:09Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。