論文の概要: Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.04238v1
- Date: Sat, 05 Apr 2025 17:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 05:07:18.033313
- Title: Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models
- Title(参考訳): 空間性に遭遇する感性:大規模言語モデルの理論に対する極端にスパースなパラメータパターンの影響
- Authors: Yuheng Wu, Wentao Guo, Zirui Liu, Heng Ji, Zhaozhuo Xu, Denghui Zhang,
- Abstract要約: ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
- 参考スコア(独自算出の注目度): 55.46269953415811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the emergence of Theory-of-Mind (ToM) capabilities in large language models (LLMs) from a mechanistic perspective, focusing on the role of extremely sparse parameter patterns. We introduce a novel method to identify ToM-sensitive parameters and reveal that perturbing as little as 0.001% of these parameters significantly degrades ToM performance while also impairing contextual localization and language understanding. To understand this effect, we analyze their interaction with core architectural components of LLMs. Our findings demonstrate that these sensitive parameters are closely linked to the positional encoding module, particularly in models using Rotary Position Embedding (RoPE), where perturbations disrupt dominant-frequency activations critical for contextual processing. Furthermore, we show that perturbing ToM-sensitive parameters affects LLM's attention mechanism by modulating the angle between queries and keys under positional encoding. These insights provide a deeper understanding of how LLMs acquire social reasoning abilities, bridging AI interpretability with cognitive science. Our results have implications for enhancing model alignment, mitigating biases, and improving AI systems designed for human interaction.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)における理論・オブ・ミンド(ToM)の出現を機械的観点から検討し,極めてスパースなパラメーターパターンの役割に着目した。
ToM 感受性パラメータを識別する新しい手法を導入し、これらのパラメータの 0.001% の摂動が、文脈的局所化や言語理解を損なうとともに、ToM 性能を著しく低下させることを示した。
この効果を理解するために,LLMのコアアーキテクチャコンポーネントとの相互作用を分析する。
特にRotary Position Embedding (RoPE) を用いたモデルでは, 摂動が支配周波数のアクティベーションを阻害し, 文脈的処理に欠かせないモデルでは, これらの感度パラメータが位置符号化モジュールと密接に関連していることが示唆された。
さらに,ToMに感応するパラメータの摂動が,位置符号化の下でのクエリとキー間の角度を変調することにより,LLMの注意機構に影響を及ぼすことを示す。
これらの洞察は、LLMが社会的推論能力をどのように獲得するかを深く理解し、AIの解釈可能性と認知科学を橋渡しする。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
関連論文リスト
- How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Enhancing Cybersecurity in Critical Infrastructure with LLM-Assisted Explainable IoT Systems [0.22369578015657962]
本稿では,オートエンコーダを用いた数値異常検出とLarge Language Models(LLM)を併用して,事前処理と解釈性を向上するハイブリッドフレームワークを提案する。
KDDCup99 10%補正データセットの実験結果から,LLM支援前処理パイプラインは異常検出性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-03-05T04:53:07Z) - PrivilegedDreamer: Explicit Imagination of Privileged Information for Rapid Adaptation of Learned Policies [7.376615925443845]
モデルに基づく強化学習フレームワークであるPrivlegedDreamerを紹介する。
5つのHIP-MDPタスクに関する実証分析により、PrivlegedDreamerは最先端のモデルベース、モデルフリー、do-main適応学習アルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T02:46:02Z) - Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Robust Quantum Sensing with Multiparameter Decorrelation [0.15705429611931054]
我々は、どんな量子プラットフォームにも適応可能な新しいアプローチを開発し、堅牢なセンシングプロトコルを設計する。
我々は,機械学習エージェントを,潜在的検出プロトコルの空間をはるかに大きくして誘導する情報理論的目標を同定する。
パラメータ空間の統計的解析による結果とベイズ推論に対するデコレーションの効果を示す。
論文 参考訳(メタデータ) (2024-05-13T16:41:32Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。