論文の概要: Brain-Grounded Axes for Reading and Steering LLM States
- arxiv url: http://arxiv.org/abs/2512.19399v1
- Date: Mon, 22 Dec 2025 13:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.776271
- Title: Brain-Grounded Axes for Reading and Steering LLM States
- Title(参考訳): 読解・操舵用ブレイングラウンド軸
- Authors: Sandro Andric,
- Abstract要約: 大規模言語モデル(LLM)の解釈可能性手法は、典型的にはテキストの監督から方向を導かれる。
我々は,人間の脳活動をトレーニング信号としてではなく,LLM状態の読解と操舵のための座標系として用いることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)の解釈可能性メソッドは、典型的には、外部の基盤を欠く可能性があるテキストの監督から方向を導出する。
我々は,人間の脳活動をトレーニング信号としてではなく,LLM状態の読み取りと操舵のための座標系として用いることを提案する。
SMN4Lang MEGデータセットを用いて、位相同期値(PLV)パターンのワードレベル脳アトラスを構築し、ICAを介して潜伏軸を抽出する。
我々は、独立レキシカとNERベースのラベル(POS/log- frequency を正当性チェックとして使用する)で軸を検証し、LLMを微調整することなくLSMの隠蔽状態をこれらの脳軸にマッピングする軽量アダプターを訓練した。
結果として得られる脳由来の方向に沿ってステアリングすることで、TinyLlama層中層で強い語彙(周波数リンク)軸が生成され、持続的なパープレキシティマッチング制御、脳-vs-text プローブ比較は、脳軸に対して低いパープレキシティを持つ対数周波数シフト(テキストプローブに関連して)を示す。
TinyLlama、Qwen2−0.5B、GPT-2の関数/コンテンツ軸(軸13)は、PPL整合テキストレベルの相関で一貫したステアリングを示す。
TinyLlamaのLayer-4効果は大きいが矛盾するので、二次的なものとして扱う(Appendix)。
軸構造は、アトラスがGPT埋め込み変化の特徴やワード2ベック埋め込み(|r|=0.64-0.95)を伴わずに再構築されるときに安定であり、円度の懸念を和らげる。
探索的なfMRIアンカーは、埋め込み変化とログ頻度の潜在的なアライメントを示唆するが、効果は血行力学的モデリングの仮定に敏感であり、集団レベルの証拠としてのみ扱われる。
これらの結果は、新しいインターフェースをサポートする: 神経生理学的に座屈された軸は、LLMの振る舞いを解釈可能で制御可能なハンドルを提供する。
関連論文リスト
- NeuroMambaLLM: Dynamic Graph Learning of fMRI Functional Connectivity in Autistic Brains Using Mamba and Language Model Reasoning [0.0]
我々は,動的潜在グラフ学習とLarge Language Models (LLM) を用いた選択状態空間時間モデルを統合するエンドツーエンドフレームワークであるNeuroMambaLLMを提案する。
提案手法は生の血液酸素レベル依存(BOLD)時系列から動的に機能接続を学習し,固定された相関グラフを適応的な潜在接続に置き換えると共に,動作関連アーティファクトの抑制と長距離時間依存性のキャプチャを行う。
この設計により、LLMは診断分類と言語に基づく推論の両方を実行でき、ダイナミックなfMRIパターンを分析し、臨床的に意味のあるテキストレポートを生成することができる。
論文 参考訳(メタデータ) (2026-02-14T13:32:59Z) - MotionTeller: Multi-modal Integration of Wearable Time-Series with LLMs for Health and Behavioral Understanding [4.158479111055355]
MotionTellerは、大規模言語モデル(LLM)と微小レベルのウェアラブルアクティビティデータを統合した生成フレームワークである。
我々は,実世界のNHANES記録から得られた554383対の新たなデータセットを構築し,言語トークンにのみ依存したクロスエントロピー損失を用いてモデルを訓練する。
MotionTellerは高いセマンティック忠実度(BERT-F1 = 0.924)と語彙精度(ROUGE-1 = 0.722)を実現し、ROUGE-1ではプロンプトベースのベースラインを7%上回っている。
論文 参考訳(メタデータ) (2025-12-25T04:37:07Z) - Hard vs. Noise: Resolving Hard-Noisy Sample Confusion in Recommender Systems via Large Language Models [4.7341002297388295]
トレーニングレコメンデータシステムで使用される暗黙のフィードバックは、ミスクリックや位置バイアスといった要因によって、避けられないほどノイズに直面する。
従来の研究では、より高い損失値などの分散したデータパターンを通じてノイズのあるサンプルを識別しようと試みてきた。
ノイズのあるサンプルと硬いサンプルが類似したパターンを呈し,ノイズの多い混乱問題を引き起こした。
論文 参考訳(メタデータ) (2025-11-10T16:51:03Z) - LLMs Can Get "Brain Rot"! [68.08198331505695]
ジャンクウェブテキストへの連続曝露は、大規模言語モデル(LLM)の持続的認知低下を誘導する
実Twitter/Xコーパスで制御された実験を行い、ジャンクと逆制御されたデータセットを構築します。
その結果、データ品質がLLM能力の崩壊の原因であることを示す重要な多視点的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-15T13:28:49Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Probing Neural Topology of Large Language Models [12.298921317333452]
本稿では,大規模言語モデルの機能的接続を明らかにするためのグラフ探索手法を提案する。
多様なLLMファミリーやスケールのモデルを探索することにより、次の予測性能の普遍的な予測可能性を見出す。
興味深いことに、トポロジーの探索は、最大130.4%のアクティベーションでの探索よりも優れている。
論文 参考訳(メタデータ) (2025-06-01T14:57:03Z) - MID-L: Matrix-Interpolated Dropout Layer with Layer-wise Neuron Selection [0.0]
Matrix-Interpolated Dropout Layer (MID-L) は、最も情報性の高いニューロンのみを動的に選択し、活性化する。
MNIST, CIFAR-10, CIFAR-100, SVHN, UCI adult, IMDB の6つのベンチマークによる実験の結果, MID-L は活動ニューロンの55%まで減少することがわかった。
論文 参考訳(メタデータ) (2025-05-16T16:29:19Z) - Steer LLM Latents for Hallucination Detection [29.967245405976072]
本稿では、推論中に表現空間を再評価し、真理と幻覚の出力を分離するステアリングベクトルを提案する。
我々の2段階のフレームワークは、まず、ラベル付き例題の小さなセットでSVを訓練し、コンパクトで分離されたクラスタを形成します。
その後、ラベルなしのLLM世代で模範集合を拡張し、疑似ラベル付けに最適なトランスポートベースのアルゴリズムと信頼に基づくフィルタリングプロセスを組み合わせた。
論文 参考訳(メタデータ) (2025-03-01T19:19:34Z) - What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length [61.71625297655583]
MORCELAはアクセプタビリティのためのリンク理論よりも優れていることを示す。
より大型のモデルでは、一グラムの周波数に対する相対的な調整の度合いが低い。
本分析により,より大きなLMの周波数効果に対する感受性の低下は,文脈において稀な単語をより正確に予測する能力によって説明できることが示された。
論文 参考訳(メタデータ) (2024-11-04T19:05:49Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。