論文の概要: Mechanistic Interpretability of GPT-2: Lexical and Contextual Layers in Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2512.06681v1
- Date: Sun, 07 Dec 2025 06:36:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.466848
- Title: Mechanistic Interpretability of GPT-2: Lexical and Contextual Layers in Sentiment Analysis
- Title(参考訳): GPT-2の機械的解釈可能性:知覚分析における語彙層と文脈層
- Authors: Amartya Hatua,
- Abstract要約: 我々は,早期語彙検出と中層文脈統合を含む仮説化された2段階感情アーキテクチャを検証した。
実験により、初期層(0-3)が語彙的感情検知器として機能し、文脈に依存しない安定した位置特異的極性信号を符号化した。
中層特殊化の代わりに, 否定, 皮肉, ドメインシフトなどの文脈現象が, 統合された非モジュラー機構によって, 主に後期層(8-11)に集積されることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a mechanistic interpretability study of GPT-2 that causally examines how sentiment information is processed across its transformer layers. Using systematic activation patching across all 12 layers, we test the hypothesized two-stage sentiment architecture comprising early lexical detection and mid-layer contextual integration. Our experiments confirm that early layers (0-3) act as lexical sentiment detectors, encoding stable, position specific polarity signals that are largely independent of context. However, all three contextual integration hypotheses: Middle Layer Concentration, Phenomenon Specificity, and Distributed Processing are falsified. Instead of mid-layer specialization, we find that contextual phenomena such as negation, sarcasm, domain shifts etc. are integrated primarily in late layers (8-11) through a unified, non-modular mechanism. These experimental findings provide causal evidence that GPT-2's sentiment computation differs from the predicted hierarchical pattern, highlighting the need for further empirical characterization of contextual integration in large language models.
- Abstract(参考訳): 本稿では,GPT-2の機械論的解釈可能性について検討し,感情情報がどのようにトランスフォーマー層で処理されるのかを慎重に検討する。
全12層にまたがる組織的アクティベーションパッチを用いて,早期語彙検出と中層文脈統合を含む仮説化された2段階の感情アーキテクチャを検証した。
実験により、初期層(0-3)が語彙的感情検知器として機能し、文脈に依存しない安定した位置特異的極性信号を符号化した。
しかし、中層濃度、フェノメノン特異性、分散処理の3つの文脈統合仮説は、すべてファルシファイドである。
中間層特殊化の代わりに, 否定, 皮肉, ドメインシフトなどの文脈現象が, 統合された非モジュラー機構によって, 主に後期層(8-11)に集積されることが判明した。
これらの実験結果は、GPT-2の感情計算が予測された階層パターンと異なるという因果的証拠を提供し、大規模言語モデルにおける文脈統合のさらなる経験的特徴付けの必要性を強調している。
関連論文リスト
- Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components [0.17188280334580197]
LLM(Large Language Models)は、しばしば過剰な自信を示し、高い文脈で不確実性のある情報を提示する。
我々は、人間の注釈付きアサーション性データセットを微調整したオープンソースのLlama 3.2モデルを使用している。
分析により,アサーションのコントラストに最も敏感な層が同定され,高いアサーティブ表現が感情的・論理的クラスタの2つのサブコンポーネントに分解されることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-24T01:43:48Z) - Punctuation and Predicates in Language Models [0.5937476291232802]
我々は,GPT-2,DeepSeek,Gemmaの各層における句読点の必要性と有効性を評価する。
異なる推論規則がLLMによって異なる処理を行うかを検討する。
本研究は, LLMにおける句読解と推論の機構について, 新たな知見を提供するものである。
論文 参考訳(メタデータ) (2025-08-11T09:53:30Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Disentangling Feature Structure: A Mathematically Provable Two-Stage Training Dynamics in Transformers [18.662154648423087]
本稿では, 変圧器における2段階トレーニングのダイナミクスについて理論的に検証する。
我々の知る限り、これはトランスにおける特徴レベルの2段階最適化プロセスに関する最初の厳密な結果である。
論文 参考訳(メタデータ) (2025-02-28T03:27:24Z) - Trajectories of Change: Approaches for Tracking Knowledge Evolution [0.0]
SEN(Socsocial-epistemic Network)の枠組みを通じて,知識システムの局所的・グローバル的進化を探求する。
まず,相対エントロピーに基づく情報理論を用いてセマンティックシフトを検出し,その意義を評価し,鍵となる駆動特徴を同定する。
第二に、文書の埋め込みのバリエーションは意味的近傍の変化を明らかにし、類似文書の濃度がどのように上昇するか、安定したまま、あるいは分散し続けるかを追跡する。
論文 参考訳(メタデータ) (2024-12-31T11:09:37Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。