論文の概要: Mechanistic Interpretability of Cognitive Complexity in LLMs via Linear Probing using Bloom's Taxonomy
- arxiv url: http://arxiv.org/abs/2602.17229v1
- Date: Thu, 19 Feb 2026 10:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.915157
- Title: Mechanistic Interpretability of Cognitive Complexity in LLMs via Linear Probing using Bloom's Taxonomy
- Title(参考訳): ブルーム分類を用いた線形探索によるLLMの認知的複雑度の機械論的解釈可能性
- Authors: Bianca Raimondi, Maurizio Gabbrielli,
- Abstract要約: 本研究では,ブルームの分類を階層レンズとして用いた認知複雑性の内的神経表現について検討した。
基本記憶(記憶)から抽象合成(記憶)まで、様々な認知レベルがモデルの残留ストリーム内で線形に分離可能であるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.8665758002017515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The black-box nature of Large Language Models necessitates novel evaluation frameworks that transcend surface-level performance metrics. This study investigates the internal neural representations of cognitive complexity using Bloom's Taxonomy as a hierarchical lens. By analyzing high-dimensional activation vectors from different LLMs, we probe whether different cognitive levels, ranging from basic recall (Remember) to abstract synthesis (Create), are linearly separable within the model's residual streams. Our results demonstrate that linear classifiers achieve approximately 95% mean accuracy across all Bloom levels, providing strong evidence that cognitive level is encoded in a linearly accessible subspace of the model's representations. These findings provide evidence that the model resolves the cognitive difficulty of a prompt early in the forward pass, with representations becoming increasingly separable across layers.
- Abstract(参考訳): 大規模言語モデルのブラックボックスの性質は、表面レベルのパフォーマンス指標を超越する新しい評価フレームワークを必要とする。
本研究では,ブルームの分類法を階層レンズとして用いた認知複雑性の内的神経表現について検討した。
異なるLCMから高次元活性化ベクトルを解析することにより、基本記憶(記憶)から抽象合成(記憶)まで様々な認知レベルがモデルの残留ストリーム内で線形に分離可能であるかどうかを探索する。
その結果、線形分類器はすべてのブルームレベルに対して約95%の平均精度を達成でき、認知レベルがモデル表現の線形アクセス可能な部分空間にエンコードされているという強い証拠が得られた。
これらの結果は、モデルが前方通過の早い段階でのプロンプトの認知的困難を解消し、表象が層間で分離しやすくなっていることを示す。
関連論文リスト
- Detecting Hallucinations in Retrieval-Augmented Generation via Semantic-level Internal Reasoning Graph [12.233570103035312]
そこで本研究では,忠実な幻覚を検出するための意味レベルの内部推論グラフに基づく手法を提案する。
RAGTruth と Dolly-15k の最先端ベースラインと比較して総合的な性能が向上する。
論文 参考訳(メタデータ) (2026-01-06T14:35:20Z) - A novel hallucination classification framework [0.0]
本研究では,大規模言語モデル(LLM)における幻覚の自動検出手法を提案する。
提案手法は,素早い工学的手法による系統分類と多様な幻覚の再現制御に基づく。
論文 参考訳(メタデータ) (2025-10-06T09:54:20Z) - Probing Neural Topology of Large Language Models [12.298921317333452]
本稿では,大規模言語モデルの機能的接続を明らかにするためのグラフ探索手法を提案する。
多様なLLMファミリーやスケールのモデルを探索することにより、次の予測性能の普遍的な予測可能性を見出す。
興味深いことに、トポロジーの探索は、最大130.4%のアクティベーションでの探索よりも優れている。
論文 参考訳(メタデータ) (2025-06-01T14:57:03Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Probing Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。
本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。
我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。