論文の概要: Why Do Large Language Models Generate Harmful Content?
- arxiv url: http://arxiv.org/abs/2604.11663v1
- Date: Mon, 13 Apr 2026 16:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.671603
- Title: Why Do Large Language Models Generate Harmful Content?
- Title(参考訳): 大規模言語モデルはなぜ有害コンテンツを生成するのか?
- Authors: Rajesh Ganguli, Raha Moraffah,
- Abstract要約: 有害発生の原因要因を同定するための因果媒介分析に基づくアプローチを提案する。
本手法は,モデル層,モジュール(MLPおよびアテンションブロック)および個々のニューロンの多粒体解析を行う。
- 参考スコア(独自算出の注目度): 1.7616964231020023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been shown to generate harmful content. However, the underlying causes of such behavior remain under explored. We propose a causal mediation analysis-based approach to identify the causal factors responsible for harmful generation. Our method performs a multi-granular analysis across model layers, modules (MLP and attention blocks), and individual neurons. Extensive experiments on state-of-the-art LLMs indicate that harmful generation arises in the later layers of the model, results primarily from failures in MLP blocks rather than attention blocks, and is associated with neurons that act as a gating mechanism for harmful generation. The results indicate that the early layers in the model are used for a contextual understanding of harmfulness in a prompt, which is then propagated through the model, to generate harmfulness in the late layers, as well as a signal indicating harmfulness through MLP blocks. This is then further propagated to the last layer of the model, specifically to a sparse set of neurons, which receives the signal and determines the generation of harmful content accordingly.
- Abstract(参考訳): 大規模言語モデル(LLM)は有害なコンテンツを生成することが示されている。
しかし、そのような行動の根本原因はいまだ解明されていない。
有害発生の原因要因を同定するための因果媒介分析に基づくアプローチを提案する。
本手法は,モデル層,モジュール(MLPおよびアテンションブロック)および個々のニューロンの多粒体解析を行う。
最先端のLSMの広範囲にわたる実験は、モデルの後層に有害な発生が生じることを示唆しており、主に注意ブロックではなく、MLPブロックの障害に起因するものであり、有害な生成のゲーティング機構として機能するニューロンと関連している。
その結果, モデルの初期層は, プロンプト中の有害性の文脈的理解に利用され, モデルを介して伝播し, 後期層において有害性を生成するとともに, MLPブロックを介して有害性を示す信号を生成することが示唆された。
これはモデルの最後の層、特に信号を受け取り、それに従って有害な内容の生成を決定するスパースニューロンの集合にさらに伝播する。
関連論文リスト
- Minimal neuron ablation triggers catastrophic collapse in the language core of Large Vision-Language Models [17.186414423941482]
LVLM(Large Vision-Language Models)は、マルチモーダルな理解能力を示すが、その堅牢性はあまり理解されていない。
本稿では,LVLMの構造的脆弱性を解明し,破壊的崩壊を引き起こす重要なニューロンを同定する。
論文 参考訳(メタデータ) (2025-11-30T14:52:11Z) - Peeling Context from Cause for Multimodal Molecular Property Prediction [12.900046337617546]
CLaP(Causal Layerwise Peeling)は、因果信号をコンテキストから階層的に分離するフレームワークである。
CLaPは、競争ベースラインよりもMAE、MSE、R2$を一貫して改善する。
原子レベルの因果正性マップを生成し、予測に責任を負う部分構造をハイライトする。
論文 参考訳(メタデータ) (2025-11-10T04:29:33Z) - The Achilles' Heel of LLMs: How Altering a Handful of Neurons Can Cripple Language Abilities [16.20947034847556]
大規模言語モデル(LLM)は自然言語処理の基礎となるツールとなっている。
近年の研究では、人間の脳内の生物学的ニューロンのごく一部が、コア認知機能に欠かせないことが判明している。
論文 参考訳(メタデータ) (2025-10-11T14:39:09Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [78.20380492883022]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Generative Intervention Models for Causal Perturbation Modeling [80.72074987374141]
多くの応用において、システムのメカニズムが外部の摂動によって変更されるかは未定である。
本稿では、これらの摂動特徴を原子間干渉による分布にマッピングする方法を学習する生成的介入モデル(GIM)を提案する。
論文 参考訳(メタデータ) (2024-11-21T10:37:57Z) - Emerging Synergies in Causality and Deep Generative Models: A Survey [34.47483716716943]
深部生成モデル (DGM) は複雑なデータ分布を捉えるのに適することが証明されているが、一般化と解釈可能性に欠けることが多い。
因果性は、データ生成を駆動するメカニズムを理解するための構造化レンズを提供し、これらのプロセスに固有の因果効果のダイナミクスを強調する。
我々は、DGMにおける因果原理の統合を解明し、DGMを用いた因果同定を調査し、大規模生成モデルにおける因果関係の新たな研究フロンティアを探索する。
論文 参考訳(メタデータ) (2023-01-29T04:10:12Z) - Interpretable Convolutional Neural Networks for Subject-Independent
Motor Imagery Classification [22.488536453952964]
本稿では,脳コンピュータインタフェース(BCI)研究のための説明可能なディープラーニングモデルを提案する。
具体的には,運動画像(MI)タスクから得られる脳波信号を分類することを目的とする。
トポグラフィーでLRPの出力を示す熱マップを可視化し, 神経生理学的因子の同定を行った。
論文 参考訳(メタデータ) (2021-12-14T07:35:52Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。