論文の概要: Atomic Literary Styling: Mechanistic Manipulation of Prose Generation in Neural Language Models
- arxiv url: http://arxiv.org/abs/2510.17909v1
- Date: Sun, 19 Oct 2025 16:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.337196
- Title: Atomic Literary Styling: Mechanistic Manipulation of Prose Generation in Neural Language Models
- Title(参考訳): アトミック・リテラリー・スティリング:ニューラル言語モデルにおける散文生成のメカニスティック・マニピュレーション
- Authors: Tsogt-Ochir Enkhbayar,
- Abstract要約: 我々は、模範的散文と剛性AI生成テキストとを区別するニューロンを同定する。
我々の研究結果は、望ましい入力で活性化するニューロンが生成中にそれらの出力を生成するという仮定に挑戦する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a mechanistic analysis of literary style in GPT-2, identifying individual neurons that discriminate between exemplary prose and rigid AI-generated text. Using Herman Melville's Bartleby, the Scrivener as a corpus, we extract activation patterns from 355 million parameters across 32,768 neurons in late layers. We find 27,122 statistically significant discriminative neurons ($p < 0.05$), with effect sizes up to $|d| = 1.4$. Through systematic ablation studies, we discover a paradoxical result: while these neurons correlate with literary text during analysis, removing them often improves rather than degrades generated prose quality. Specifically, ablating 50 high-discriminating neurons yields a 25.7% improvement in literary style metrics. This demonstrates a critical gap between observational correlation and causal necessity in neural networks. Our findings challenge the assumption that neurons which activate on desirable inputs will produce those outputs during generation, with implications for mechanistic interpretability research and AI alignment.
- Abstract(参考訳): GPT-2における文体スタイルの機械的解析を行い、模範的な散文と剛性なAI生成テキストを識別する個々のニューロンを同定する。
ヘルマン・メルヴィルのBartleby、Scrivenerをコーパスとして使用し、後期層の32,768ニューロンにわたる355万のパラメータから活性化パターンを抽出する。
27,122個の統計的に重要な識別ニューロン(p < 0.05$)があり、効果の大きさは|d| = 1.4$である。
体系的なアブレーション研究を通じて、これらのニューロンは分析中に文学的なテキストと相関するが、それらを取り除くことは、生成された散文の質を劣化させるよりも、しばしば改善する。
具体的には、50個の高分化ニューロンを非難すると、文学的スタイルのメトリクスが25.7%向上する。
これは、ニューラルネットワークにおける観察的相関と因果的必要性の間に重要なギャップを示す。
我々の研究結果は、望ましい入力を活性化するニューロンが生成中にそれらの出力を生成するという仮定に挑戦し、機械的解釈可能性の研究とAIアライメントに影響を及ぼす。
関連論文リスト
- Understanding Gated Neurons in Transformers from Their Input-Output Functionality [48.91500104957796]
ニューロンの入力重みと出力重みのコサイン類似性について検討する。
初期中間層ではエンリッチメントニューロンが支配的であり,後期層では枯渇傾向が見られた。
論文 参考訳(メタデータ) (2025-05-23T14:14:17Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。
我々のデータ駆動量分析は興味深い発見を照らす。
我々のコードはNeuroXツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-06-27T13:31:49Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Does injecting linguistic structure into language models lead to better
alignment with brain recordings? [13.880819301385854]
言語モデルと脳記録との整合性は,構文的あるいは意味論的フォーマリズムからのアノテーションに偏りがある場合と評価する。
提案手法は,脳内の意味の組成について,より標的となる仮説の評価を可能にする。
論文 参考訳(メタデータ) (2021-01-29T14:42:02Z) - Analyzing Individual Neurons in Pre-trained Language Models [41.07850306314594]
言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
論文 参考訳(メタデータ) (2020-10-06T13:17:38Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。