論文の概要: PIXEL: Adaptive Steering Via Position-wise Injection with eXact Estimated Levels under Subspace Calibration
- arxiv url: http://arxiv.org/abs/2510.10205v1
- Date: Sat, 11 Oct 2025 13:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.841408
- Title: PIXEL: Adaptive Steering Via Position-wise Injection with eXact Estimated Levels under Subspace Calibration
- Title(参考訳): PIXEL: 部分空間校正下でのeXact推定レベルを考慮した適応的ステアリングバイア位置対応注入
- Authors: Manjiang Yu, Hongji Li, Priyanka Singh, Xue Li, Di Wang, Lijie Hu,
- Abstract要約: ウェブ上での大規模言語モデル(LLM)のための位置対応型アクティベーションステアリングフレームワークを提案する。
PIXELは2つのビューからプロパティ整列部分空間を学習し、制約された幾何学的目的を通して介入強度を選択する。
PIXELは、モデル一般機能を維持しながら、属性アライメントを一貫して改善する。
- 参考スコア(独自算出の注目度): 17.225716209866086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable behavior control is central to deploying large language models (LLMs) on the web. Activation steering offers a tuning-free route to align attributes (e.g., truthfulness) that ensure trustworthy generation. Prevailing approaches rely on coarse heuristics and lack a principled account of where to steer and how strongly to intervene. To this end, we propose Position-wise Injection with eXact Estimated Levels (PIXEL), a position-wise activation steering framework that, in contrast to prior work, learns a property-aligned subspace from dual views (tail-averaged and end-token) and selects intervention strength via a constrained geometric objective with a closed-form solution, thereby adapting to token-level sensitivity without global hyperparameter tuning. PIXEL further performs sample-level orthogonal residual calibration to refine the global attribute direction and employs a lightweight position-scanning routine to identify receptive injection sites. We additionally provide representation-level guarantees for the minimal-intervention rule, supporting reliable alignment. Across diverse models and evaluation paradigms, PIXEL consistently improves attribute alignment while preserving model general capabilities, offering a practical and principled method for LLMs' controllable generation. Our code is available at https://github.com/V1centNevwake/PIXEL-Adaptive-Steering
- Abstract(参考訳): 信頼性の高い振る舞い制御は、Web上に大きな言語モデル(LLM)をデプロイする中心である。
アクティベーションステアリングは、信頼できる生成を保証する属性(例えば、真実性)をアライメントするためのチューニング不要なルートを提供する。
一般的なアプローチは粗大なヒューリスティックスに依存しており、どこに操縦するか、どのように介入するかという原則的な説明が欠けている。
この目的のために,従来の作業とは対照的に,両ビュー(テール平均およびエンドトーケン)からプロパティ整合部分空間を学習し,制約付き幾何学的対象を閉形式解を用いて介入強度を選択することで,大域的ハイパーパラメータチューニングを伴わないトークンレベルの感度に適応する,位置対応型アクティベーションステアリングフレームワークであるeXact Estimated Levels (PIXEL)を提案する。
PIXELはさらに、グローバル属性方向を洗練させるためにサンプルレベルの直交残差校正を行い、より軽量な位置走査ルーチンを使用して受容射出部位を識別する。
また、最小干渉規則の表現レベル保証も提供し、信頼性の高いアライメントをサポートします。
PIXELは多種多様なモデルと評価パラダイムにまたがって、モデル汎用性を保ちながら属性アライメントを一貫して改善し、LLMの制御可能な生成のための実用的で原則化された方法を提供する。
私たちのコードはhttps://github.com/V1centNevwake/PIXEL-Adaptive-Steeringで利用可能です。
関連論文リスト
- Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文 参考訳(メタデータ) (2025-10-05T18:05:28Z) - An Adaptive ICP LiDAR Odometry Based on Reliable Initial Pose [11.704772923028976]
反復クローズトポイント法(ICP)に基づく手法は,LiDARオドメトリーのコア技術となっている。
適応機構の欠如は、複雑な動的環境の効果的処理を妨げる。
本稿では,信頼度の高い初期ポーズに依存する適応型ICPベースのLiDARオドメトリー法を提案する。
論文 参考訳(メタデータ) (2025-09-26T08:40:53Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Uncertainty-Guided Alignment for Unsupervised Domain Adaptation in Regression [5.437298646956505]
Unsupervised Domain Adaptation for Regression (UDAR)は、ラベル付きソースドメインからラベル付きターゲットドメインにモデルを適応させることを目標としている。
従来の特徴アライメント手法は分類に成功し、回帰特徴の相関性から回帰に効果がないことがしばしば証明される。
特徴アライメントプロセスに予測の不確実性を統合する新しい手法である不確実性誘導アライメント(UGA)を提案する。
論文 参考訳(メタデータ) (2024-01-24T14:55:02Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。