論文の概要: Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers
- arxiv url: http://arxiv.org/abs/2512.15674v1
- Date: Wed, 17 Dec 2025 18:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.099738
- Title: Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers
- Title(参考訳): Activation Oracles: LLMを汎用的なActivation Explainerとしてトレーニングし評価する
- Authors: Adam Karvonen, James Chua, Clément Dumas, Kit Fraser-Taliente, Subhash Kantamneni, Julian Minder, Euan Ong, Arnab Sen Sharma, Daniel Wen, Owain Evans, Samuel Marks,
- Abstract要約: 大きな言語モデル(LLM)のアクティベーションを理解するのは非常に難しい。
最近の研究で、LatentQAとして知られるシンプルなアプローチが提案されている。
我々は、LatentQA学習モデルについて、分布外設定で評価する。
- 参考スコア(独自算出の注目度): 10.70026676953023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) activations are notoriously difficult to understand, with most existing techniques using complex, specialized methods for interpreting them. Recent work has proposed a simpler approach known as LatentQA: training LLMs to directly accept LLM activations as inputs and answer arbitrary questions about them in natural language. However, prior work has focused on narrow task settings for both training and evaluation. In this paper, we instead take a generalist perspective. We evaluate LatentQA-trained models, which we call Activation Oracles (AOs), in far out-of-distribution settings and examine how performance scales with training data diversity. We find that AOs can recover information fine-tuned into a model (e.g., biographical knowledge or malign propensities) that does not appear in the input text, despite never being trained with activations from a fine-tuned model. Our main evaluations are four downstream tasks where we can compare to prior white- and black-box techniques. We find that even narrowly-trained LatentQA models can generalize well, and that adding additional training datasets (such as classification tasks and a self-supervised context prediction task) yields consistent further improvements. Overall, our best AOs match or exceed prior white-box baselines on all four tasks and are the best method on 3 out of 4. These results suggest that diversified training to answer natural-language queries imparts a general capability to verbalize information about LLM activations.
- Abstract(参考訳): 大規模言語モデル(LLM)のアクティベーションは理解が難しいことで知られており、既存の手法のほとんどは複雑な特殊な手法を用いて解釈する。
最近の研究は、LLMをインプットとして直接LLMアクティベーションを受け入れ、自然言語でそれらに関する任意の質問に答えるように訓練する、LatentQAとして知られる単純なアプローチを提案している。
しかしながら、以前の作業は、トレーニングと評価の両方のタスク設定の狭さに重点を置いていた。
本稿では,一般論の観点から考察する。
我々は、Activation Oracles (AOs) と呼ばれるLatentQAトレーニングモデルの評価を行い、データの多様性をトレーニングすることで、パフォーマンスがいかにスケールするかを検討する。
AOsは、微調整されたモデルからのアクティベーションで訓練されないにもかかわらず、入力テキストに現れないモデル(例えば、伝記的知識や悪性適合性)に微調整された情報を復元することができる。
主な評価は、従来のホワイトボックスとブラックボックスのテクニックと比較できる4つの下流タスクである。
狭義のLatentQAモデルでさえもうまく一般化でき、追加のトレーニングデータセット(分類タスクや自己教師付きコンテキスト予測タスクなど)を追加することで、さらに一貫した改善が得られます。
全体として、私たちの最高のAOは4つのタスクすべてにおいて、以前のホワイトボックスベースラインと一致しているか、あるいは超えます。
これらの結果から,自然言語クエリに応答する多言語学習は,LLMアクティベーションに関する情報を言語化するための一般的な能力を与えることが示された。
関連論文リスト
- Tiny language models [0.0]
本研究では,小言語モデル (TLMs) が大言語モデル (LLMs) と同じ鍵質的特徴を示すかどうかを検討する。
我々は,TLMが事前訓練されたモデルと非訓練されたモデルの間に,分類タスク間で明らかな性能差を示すことを示した。
事前訓練された深部TLMアーキテクチャによって達成された分類精度は、複数の独立に訓練された浅部アーキテクチャからなるソフト委員会によって再現することができる。
論文 参考訳(メタデータ) (2025-07-20T08:49:57Z) - SkillAggregation: Reference-free LLM-Dependent Aggregation [14.46141987797362]
大規模言語モデル(LLM)は、NLPタスクの評価にますます使用される。
最近の研究は、審査員が性能を向上させるために複数のLLMを使うことを示唆している。
この研究は、参照ラベルが使用できない複数のシステムからの予測を集約することに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-14T07:13:47Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - FRACTAL: Fine-Grained Scoring from Aggregate Text Labels [17.052047103156372]
大規模言語モデル(LLM)は、書き込み、ファクト検索、クエリ、推論といった複雑な生成タスクをパワーアップするように調整されている。
伝統的に、LLM性能の評価とチューニングのための人間またはモデルフィードバックが応答レベルで提供されてきた。
最近の研究は、文レベルのラベルがLLM最適化のためのより正確で解釈可能なフィードバックを提供する可能性を示唆している。
論文 参考訳(メタデータ) (2024-04-07T05:54:28Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。