論文の概要: Are Emotion and Rhetoric Neurons in LLM? Neuron Recognition and Adaptive Masking for Emotion-Rhetoric Prediction Steering
- arxiv url: http://arxiv.org/abs/2604.17255v1
- Date: Sun, 19 Apr 2026 04:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.418783
- Title: Are Emotion and Rhetoric Neurons in LLM? Neuron Recognition and Adaptive Masking for Emotion-Rhetoric Prediction Steering
- Title(参考訳): LLMにおける感情とレトリックニューロンは? : 感情-レトリック予測ステアリングのためのニューロン認識と適応的マスキング
- Authors: Li Zheng, Xin Zhang, Shuyi He, Fei Li, Chong Teng, Jiangming Yang, Donghong Ji, Zhuang Li,
- Abstract要約: 既存の研究は主に外部最適化に依存しており、内部表現機構の詳細な探索を欠いている。
我々は,多次元スクリーニングを統合したニューロン識別フレームワークを提案し,適応マスキング法を設計する。
我々は,非目標文の直接誘導と,レトリックニューロンによる感情タスクの強化を実現している。
- 参考スコア(独自算出の注目度): 28.166264440634553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate comprehension and controllable generation of emotion and rhetoric are pivotal for enhancing the reasoning capabilities of large language models (LLMs). Existing studies mostly rely on external optimizations, lacking in-depth exploration of internal representation mechanisms, thus failing to achieve fine-grained steering at the neuron level. A handful of works on neurons are confined to emotions, neglecting rhetoric neurons and their intrinsic connections. Traditional neuron masking also exhibits counterintuitive phenomena, making reliable verification of neuron functionality infeasible. To address these issues, we systematically investigate the neurons representation mechanisms and inherent associations of 6 emotion categories and 4 core rhetorical devices. We propose a neuron identification framework that integrates multi-dimensional screening, and design an adaptive masking method incorporating dynamic filtering, attenuation masking, and feedback optimization, enabling reliable causal validation of neuron functionality.Through neuron regulation, we achieve directed induction of non-target sentences and enhancement of emotion tasks via rhetoric neurons. Experiments on 5 commonly used datasets validate the effectiveness of our method, providing a novel paradigm for the fine-grained steering of emotion and rhetoric expressions in LLMs.
- Abstract(参考訳): 感情とレトリックの正確な理解と制御可能な生成は、大規模言語モデル(LLM)の推論能力を高めるために重要である。
既存の研究は主に外部最適化に依存しており、内部表現機構の詳細な探索を欠いているため、ニューロンレベルでのきめ細かい操舵を達成できなかった。
ニューロンに関する少数の研究は、レトリックニューロンとその固有の接続を無視して、感情に制限されている。
従来のニューロンマスキングもまた直感的な現象を示しており、ニューロンの機能の信頼性の検証が不可能である。
これらの課題に対処するため、我々は6つの感情カテゴリと4つのコアレトリック装置のニューロン表現機構と固有の関連性について体系的に検討した。
我々は,多次元スクリーニングを統合し,動的フィルタリング,減衰マスキング,フィードバック最適化を取り入れた適応マスキング手法を設計し,ニューロン機能の因果検証が可能なニューロン識別フレームワークを提案する。
提案手法の有効性を検証し,LLMにおける感情と修辞表現の微粒化のための新しいパラダイムを提供する。
関連論文リスト
- From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models [10.052877942432783]
HONESは、視覚言語モデルにおけるタスク認識ニューロンの属性とステアリングのための勾配のないフレームワークである。
HONESは,タスククリティカルニューロンの同定において既存の手法よりも優れており,ステアリング後のモデル性能が向上していることを示す。
論文 参考訳(メタデータ) (2026-04-20T08:21:06Z) - Towards Interpretable Hallucination Analysis and Mitigation in LVLMs via Contrastive Neuron Steering [60.23509717784518]
既存の緩和法は主に出力レベルの調整に重点を置いており、幻覚を引き起こす内部メカニズムはほとんど探索されていない。
クリーン入力とノイズ入力のコントラスト解析により画像特異的ニューロンを識別するコントラスト性ニューロンステアリング(CNS)を提案する。
CNSは摂動によって引き起こされる活性化を抑えつつ情報伝達ニューロンを選択的に増幅し、より堅牢でセマンティックな視覚表現を生み出す。
論文 参考訳(メタデータ) (2026-01-31T09:21:04Z) - Discovering and Causally Validating Emotion-Sensitive Neurons in Large Audio-Language Models [8.550786156000461]
大規模音声言語モデル(LALM)における感情感受性ニューロン(ESN)のニューロンレベルでの解釈可能性の研究について紹介する。
複数の感情認識ベンチマークにおいて、周波数、エントロピー、等級、コントラストに基づくニューロンセレクタを比較した。
推論時間の介入を用いて、一貫した感情特異的なシグネチャを明らかにする。
論文 参考訳(メタデータ) (2026-01-06T15:46:35Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
高度に正常なニューロンでも,多節性行動が持続的に発現していることが示される。
この観察は、ニューロンの属性からレンジベースの解釈へのシフトを動機付けている。
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
論文 参考訳(メタデータ) (2025-02-04T03:33:55Z) - Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Redundancy and Concept Analysis for Code-trained Language Models [5.726842555987591]
コード学習言語モデルは、様々なコードインテリジェンスタスクに非常に効果的であることが証明されている。
計算ボトルネックとメモリ制約のため、多くのソフトウェアエンジニアリングアプリケーションのトレーニングとデプロイが難しい場合がある。
我々は,ソースコードモデルに対する最初のニューロンレベルの解析を行い,潜在表現内でのテクスチエントニューロンの同定を行う。
論文 参考訳(メタデータ) (2023-05-01T15:22:41Z) - Constraints on the design of neuromorphic circuits set by the properties
of neural population codes [61.15277741147157]
脳内では、情報はコード化され、伝達され、行動を伝えるために使用される。
ニューロモルフィック回路は、脳内のニューロンの集団が使用するものと互換性のある方法で情報を符号化する必要がある。
論文 参考訳(メタデータ) (2022-12-08T15:16:04Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。