Fugu-MT 論文翻訳(概要): Investigating task-specific prompts and sparse autoencoders for activation monitoring

論文の概要: Investigating task-specific prompts and sparse autoencoders for activation monitoring

arxiv url: http://arxiv.org/abs/2504.20271v1
Date: Mon, 28 Apr 2025 21:28:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.676678
Title: Investigating task-specific prompts and sparse autoencoders for activation monitoring
Title（参考訳）: アクティベーションモニタリングのためのタスク固有のプロンプトとスパースオートエンコーダの検討
Authors: Henk Tillman, Dan Mossing,
Abstract要約: 言語モデルの内部アクティベーションは、これに役立つ追加情報をエンコードする。最近の研究は、単純線形探索を改善するいくつかのアプローチを提案している。我々は,これらの手法の新たな改良を開発し,検証し,比較する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models can behave in unexpected and unsafe ways, and so it is valuable to monitor their outputs. Internal activations of language models encode additional information that could be useful for this. The baseline approach for activation monitoring is some variation of linear probing on a particular layer: starting from a labeled dataset, train a logistic regression classifier on that layer's activations. Recent work has proposed several approaches which may improve on naive linear probing, by leveraging additional computation. One class of techniques, which we call "prompted probing," leverages test time computation to improve monitoring by (1) prompting the model with a description of the monitoring task, and (2) applying a learned linear probe to resulting activations. Another class of techniques uses computation at train time: training sparse autoencoders offline to identify an interpretable basis for the activations, and e.g. max-pooling activations across tokens using that basis before applying a linear probe. However, one can also prompt the model with a description of the monitoring task and use its output directly. We develop and test novel refinements of these methods and compare them against each other. We find asking the model zero-shot is a reasonable baseline when inference-time compute is not limited; however, activation probing methods can substantially outperform this baseline given sufficient training data. Specifically, we recommend prompted probing when inference-time compute is available, due to its superior data efficiency and good generalization performance. Alternatively, if inference-time compute is limited, we find SAE-based probing methods outperform raw activation probing.
Abstract（参考訳）: 言語モデルは予期しない、そして安全でない方法で振る舞うことができるため、アウトプットを監視することは価値がある。言語モデルの内部アクティベーションは、これに役立つ追加情報をエンコードする。アクティベーション監視のベースラインアプローチは、ラベル付きデータセットから始まり、そのレイヤのアクティベーション上でロジスティック回帰分類器をトレーニングする、特定のレイヤ上の線形プローブのバリエーションである。近年の研究では, 線形探索法の改良に向けたいくつかの手法が提案されている。プロンプテッド・プロブリング」と呼ばれる手法の1つのクラスは、テスト時間計算を活用し、(1)監視タスクの記述をモデルに促し、(2)学習された線形プローブを結果としてのアクティベーションに応用することで、モニタリングを改善する。別のクラスのテクニックでは、オフラインでスパースオートエンコーダをトレーニングし、アクティベーションの解釈可能なベースを特定し、例えば、リニアプローブを適用する前にそのベースを使用してトークン間でアクティベーションを最大プールする。しかし、モニタリングタスクを記述してモデルにプロンプトし、その出力を直接使用することもできる。我々は,これらの手法の新たな改良を開発し,検証し,比較する。推論時間計算が制限されない場合、ゼロショットを問うことは妥当なベースラインとなるが、十分なトレーニングデータがあれば、アクティベーション・プロービング法はこのベースラインを大幅に上回ることができる。具体的には、より優れたデータ効率と優れた一般化性能のため、推論時計算が利用可能である場合の探索を推奨する。あるいは、推論時間計算が限られている場合、SAEベースの探索手法が生のアクティベーション探索を上回ります。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
Is a Good Foundation Necessary for Efficient Reinforcement Learning? The Computational Role of the Base Model in Exploration [32.77845864484552]
本稿では,言語モデルを用いたRLの新しい計算フレームワークを提案する。データ効率には必要ありませんが、フレームワーク内の任意のアルゴリズムのランタイムのバウンダリは低くなっています。 SpannerSamplingというアルゴリズムを導入し,事前学習したモデルが十分なカバレッジを享受するたびに,最適なデータ効率と計算効率を実現する。
論文参考訳（メタデータ） (2025-03-10T15:31:42Z)
Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文参考訳（メタデータ） (2025-02-17T18:43:24Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
Adaptive Retention & Correction: Test-Time Training for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Batch Active Learning of Reward Functions from Human Preferences [33.39413552270375]
嗜好に基づく学習は、ユーザが好みの質問をすることで、信頼できるラベル付けを可能にする。アクティブクエリ手法は、より情報性の高いデータを生成するために、好みに基づく学習で一般的に使用される。我々は,データサンプルを極力少なくして,報酬関数の効率的な学習を可能にする,新しいアルゴリズムのセットを開発した。
論文参考訳（メタデータ） (2024-02-24T08:07:48Z)
How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文参考訳（メタデータ） (2023-10-12T15:01:43Z)
DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。 LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文参考訳（メタデータ） (2023-10-02T17:52:24Z)
Distributive Pre-Training of Generative Modeling Using Matrix-Product States [0.0]
本稿では,基本的なテンソルネットワーク操作,例えば和と圧縮を利用した代替的なトレーニング手法を検討する。トレーニングアルゴリズムは、製品状態表現におけるすべてのトレーニングデータから構築された重ね合わせ状態を圧縮する。 MNISTデータセット上でアルゴリズムをベンチマークし、新しい画像と分類タスクを生成するための妥当な結果を示す。
論文参考訳（メタデータ） (2023-06-26T15:46:08Z)
Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文参考訳（メタデータ） (2022-08-19T19:42:41Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。