論文の概要: RAPTOR: Ridge-Adaptive Logistic Probes
- arxiv url: http://arxiv.org/abs/2602.00158v2
- Date: Wed, 04 Feb 2026 02:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.623523
- Title: RAPTOR: Ridge-Adaptive Logistic Probes
- Title(参考訳): RAPTOR:リッジ適応ロジスティックプローブ
- Authors: Ziqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding,
- Abstract要約: 本稿では, 簡易なL2正規化ロジスティックプローブであるRAPTORを提案する。
RAPTORは、競争の方向安定性を達成しつつ、高いベースラインを精度で一致または超える。
理想化されたガウス教師学生モデルにおけるリッジロジスティック回帰の力学特性について,高次元小ショット状態における解析を行った。
- 参考スコア(独自算出の注目度): 37.64383880338739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probing studies what information is encoded in a frozen LLM's layer representations by training a lightweight predictor on top of them. Beyond analysis, probes are often used operationally in probe-then-steer pipelines: a learned concept vector is extracted from a probe and injected via additive activation steering by adding it to a layer representation during the forward pass. The effectiveness of this pipeline hinges on estimating concept vectors that are accurate, directionally stable under ablation, and inexpensive to obtain. Motivated by these desiderata, we propose RAPTOR (Ridge-Adaptive Logistic Probe), a simple L2-regularized logistic probe whose validation-tuned ridge strength yields concept vectors from normalized weights. Across extensive experiments on instruction-tuned LLMs and human-written concept datasets, RAPTOR matches or exceeds strong baselines in accuracy while achieving competitive directional stability and substantially lower training cost; these quantitative results are supported by qualitative downstream steering demonstrations. Finally, using the Convex Gaussian Min-max Theorem (CGMT), we provide a mechanistic characterization of ridge logistic regression in an idealized Gaussian teacher-student model in the high-dimensional few-shot regime, explaining how penalty strength mediates probe accuracy and concept-vector stability and yielding structural predictions that qualitatively align with trends observed on real LLM embeddings.
- Abstract(参考訳): 探索は、その上に軽量な予測器を訓練することにより、冷凍LLMの層表現にどんな情報がエンコードされているかを研究する。
学習された概念ベクトルは、プローブから抽出され、フォワードパス中に層表現にそれを付加することにより、付加的な活性化ステアリングを介して注入される。
このパイプラインヒンジの有効性は、精度が高く、アブレーション下で方向安定で、得られるコストが安い概念ベクトルを推定する上で有効である。
これらのデシダータを動機として、検証調整されたリッジ強度が正規化重みから概念ベクトルを生成する単純なL2正規化ロジスティックプローブであるRAPTOR(Ridge-Adaptive Logistic Probe)を提案する。
命令調整 LLM と人手による概念データセットに関する広範な実験を通して、RAPTOR は競争の方向安定性を達成し、トレーニングコストを大幅に低減しながら、高いベースラインを精度で一致または超える。
最後に, Convex Gaussian Min-max Theorem (CGMT) を用いて, 高次元小ショット状態における理想化ガウス教師学生モデルにおけるリッジロジスティック回帰の力学特性を示し, ペナルティ強度がどのようにプローブ精度と概念ベクトル安定性を媒介し, 実際のLLM埋め込みで観測された傾向と定性的に整合する構造予測を与えるかを説明する。
関連論文リスト
- Latent-Space Contrastive Reinforcement Learning for Stable and Efficient LLM Reasoning [16.244366307890832]
textbfDeepLatent Reasoning(DLR)を提案する。
このフレームワークは、試行錯誤コストを、高価なトークンレベルのフルシーケンス生成から連続潜在多様体へシフトさせる。
実験により、DLRはより安定した訓練収束を実現し、より長い水平推論チェーンをサポートし、推論能力の持続的な蓄積を促進することが示されている。
論文 参考訳(メタデータ) (2026-01-24T03:18:22Z) - From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。
その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文 参考訳(メタデータ) (2025-12-21T08:10:26Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Training-Free Stein Diffusion Guidance: Posterior Correction for Sampling Beyond High-Density Regions [46.59494117137471]
自由拡散誘導の訓練は、追加の訓練なしに既成の分類器を活用する柔軟な方法を提供する。
本稿では,SOC を対象とする新たなトレーニングフリーフレームワークである Stein Diffusion Guidance (SDG) を紹介する。
分子低密度サンプリングタスクの実験は、SDGが標準のトレーニングフリーガイダンス手法を一貫して上回っていることを示唆している。
論文 参考訳(メタデータ) (2025-07-07T21:14:27Z) - Contrast & Compress: Learning Lightweight Embeddings for Short Trajectories [11.6132604160666]
トランスフォーマーエンコーダを応用して, 短い軌道の固定次元埋め込みを学習するための新しいフレームワークを提案する。
コントラスト学習パラダイムにおけるコサインとFFTに基づく類似度指標の影響を分析した。
Argoverse 2データセットに対する実験的な評価は、Cosine類似性目的によって形成された埋め込みが軌道のより優れたクラスタリングをもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-03T07:53:04Z) - Next Token Perception Score: Analytical Assessment of your LLM Perception Skills [12.093755170926762]
Next Token Perception Score (NTPS) は、自己回帰的特徴空間と知覚的特徴部分空間の重なりを測定する線形設定の下で導出されるスコアである。
NTPSはローランク適応(LoRA)ファインチューニング後に増加し,特に大規模モデルでは顕著である。
本研究は, 理論的知見と, 知覚能力の分析的評価を行うための実践的ツールの両方を提供する。
論文 参考訳(メタデータ) (2025-05-22T17:18:51Z) - GRANP: A Graph Recurrent Attentive Neural Process Model for Vehicle Trajectory Prediction [3.031375888004876]
車両軌道予測のためのGRANP(Graph Recurrent Attentive Neural Process)という新しいモデルを提案する。
GRANPには、決定論的パスと遅延パスを持つエンコーダと、予測のためのデコーダが含まれている。
我々は,GRANPが最先端の結果を達成し,不確実性を効率的に定量化できることを示す。
論文 参考訳(メタデータ) (2024-04-09T05:51:40Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。