論文の概要: Brain-Grounded Axes for Reading and Steering LLM States
- arxiv url: http://arxiv.org/abs/2512.19399v1
- Date: Mon, 22 Dec 2025 13:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.776271
- Title: Brain-Grounded Axes for Reading and Steering LLM States
- Title(参考訳): 読解・操舵用ブレイングラウンド軸
- Authors: Sandro Andric,
- Abstract要約: 大規模言語モデル(LLM)の解釈可能性手法は、典型的にはテキストの監督から方向を導かれる。
我々は,人間の脳活動をトレーニング信号としてではなく,LLM状態の読解と操舵のための座標系として用いることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)の解釈可能性メソッドは、典型的には、外部の基盤を欠く可能性があるテキストの監督から方向を導出する。
我々は,人間の脳活動をトレーニング信号としてではなく,LLM状態の読み取りと操舵のための座標系として用いることを提案する。
SMN4Lang MEGデータセットを用いて、位相同期値(PLV)パターンのワードレベル脳アトラスを構築し、ICAを介して潜伏軸を抽出する。
我々は、独立レキシカとNERベースのラベル(POS/log- frequency を正当性チェックとして使用する)で軸を検証し、LLMを微調整することなくLSMの隠蔽状態をこれらの脳軸にマッピングする軽量アダプターを訓練した。
結果として得られる脳由来の方向に沿ってステアリングすることで、TinyLlama層中層で強い語彙(周波数リンク)軸が生成され、持続的なパープレキシティマッチング制御、脳-vs-text プローブ比較は、脳軸に対して低いパープレキシティを持つ対数周波数シフト(テキストプローブに関連して)を示す。
TinyLlama、Qwen2−0.5B、GPT-2の関数/コンテンツ軸(軸13)は、PPL整合テキストレベルの相関で一貫したステアリングを示す。
TinyLlamaのLayer-4効果は大きいが矛盾するので、二次的なものとして扱う(Appendix)。
軸構造は、アトラスがGPT埋め込み変化の特徴やワード2ベック埋め込み(|r|=0.64-0.95)を伴わずに再構築されるときに安定であり、円度の懸念を和らげる。
探索的なfMRIアンカーは、埋め込み変化とログ頻度の潜在的なアライメントを示唆するが、効果は血行力学的モデリングの仮定に敏感であり、集団レベルの証拠としてのみ扱われる。
これらの結果は、新しいインターフェースをサポートする: 神経生理学的に座屈された軸は、LLMの振る舞いを解釈可能で制御可能なハンドルを提供する。
関連論文リスト
- Hard vs. Noise: Resolving Hard-Noisy Sample Confusion in Recommender Systems via Large Language Models [4.7341002297388295]
トレーニングレコメンデータシステムで使用される暗黙のフィードバックは、ミスクリックや位置バイアスといった要因によって、避けられないほどノイズに直面する。
従来の研究では、より高い損失値などの分散したデータパターンを通じてノイズのあるサンプルを識別しようと試みてきた。
ノイズのあるサンプルと硬いサンプルが類似したパターンを呈し,ノイズの多い混乱問題を引き起こした。
論文 参考訳(メタデータ) (2025-11-10T16:51:03Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Probing Neural Topology of Large Language Models [12.298921317333452]
本稿では,大規模言語モデルの機能的接続を明らかにするためのグラフ探索手法を提案する。
多様なLLMファミリーやスケールのモデルを探索することにより、次の予測性能の普遍的な予測可能性を見出す。
興味深いことに、トポロジーの探索は、最大130.4%のアクティベーションでの探索よりも優れている。
論文 参考訳(メタデータ) (2025-06-01T14:57:03Z) - MID-L: Matrix-Interpolated Dropout Layer with Layer-wise Neuron Selection [0.0]
Matrix-Interpolated Dropout Layer (MID-L) は、最も情報性の高いニューロンのみを動的に選択し、活性化する。
MNIST, CIFAR-10, CIFAR-100, SVHN, UCI adult, IMDB の6つのベンチマークによる実験の結果, MID-L は活動ニューロンの55%まで減少することがわかった。
論文 参考訳(メタデータ) (2025-05-16T16:29:19Z) - Steer LLM Latents for Hallucination Detection [29.967245405976072]
本稿では、推論中に表現空間を再評価し、真理と幻覚の出力を分離するステアリングベクトルを提案する。
我々の2段階のフレームワークは、まず、ラベル付き例題の小さなセットでSVを訓練し、コンパクトで分離されたクラスタを形成します。
その後、ラベルなしのLLM世代で模範集合を拡張し、疑似ラベル付けに最適なトランスポートベースのアルゴリズムと信頼に基づくフィルタリングプロセスを組み合わせた。
論文 参考訳(メタデータ) (2025-03-01T19:19:34Z) - What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length [61.71625297655583]
MORCELAはアクセプタビリティのためのリンク理論よりも優れていることを示す。
より大型のモデルでは、一グラムの周波数に対する相対的な調整の度合いが低い。
本分析により,より大きなLMの周波数効果に対する感受性の低下は,文脈において稀な単語をより正確に予測する能力によって説明できることが示された。
論文 参考訳(メタデータ) (2024-11-04T19:05:49Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。