論文の概要: ROAST: Rollout-based On-distribution Activation Steering Technique
- arxiv url: http://arxiv.org/abs/2602.14143v1
- Date: Sun, 15 Feb 2026 13:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.668156
- Title: ROAST: Rollout-based On-distribution Activation Steering Technique
- Title(参考訳): ROAST: ロールアウト型オン・ディストリビューション・アクティベーション・ステアリング技術
- Authors: Xuanbo Su, Hao Luo, Yingfang Zhang, Lijun Zhang,
- Abstract要約: アクティベーションステアリングは、推論時に大きな言語モデルをパラメータ効率よく制御する。
本稿では,ROAST(Rollout-based On-distriion Activation Steering Technique)を提案する。
我々の経験的分析によると、活性化度は方向整合性と適度に相関するが、大きさのばらつきは重要であり、しばしば意味的品質に不均衡である。
- 参考スコア(独自算出の注目度): 16.632201561391366
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Activation steering provides parameter-efficient control over large language models (LLMs) at inference time, but many methods rely on off-distribution supervision and discrete masking, leading to brittle interventions. We propose ROAST (Rollout-based On-distribution Activation Steering Technique), which estimates steering directions from the model's own on-distribution rollouts via ROC and avoids hard sparsification via Continuous Soft Scaling (CSS) and Grouped Mean Normalization. Our empirical analysis reveals that while activation magnitude correlates moderately with directional consistency, the variance in magnitude is significant and often disproportionate to semantic quality. This suggests that high-magnitude activations risk dominating the global steering direction if not properly normalized. To address this, ROAST employs grouped normalization to balance contributions across samples, ensuring a more robust estimation of the consensus steering direction. Across models (0.6B to 32B), ROAST consistently improves performance on diverse tasks (e.g., +9.7% on GSM8K for Qwen3-0.6B and +12.1% on TruthfulQA for GLM4-32B), and analyses show that CSS better preserves activation energy.
- Abstract(参考訳): アクティベーションステアリングは、推論時に大きな言語モデル(LLM)をパラメータ効率で制御するが、多くの手法は非配布の監視と離散マスキングに依存しており、不安定な介入をもたらす。
本稿では,ROAST (Rollout-based On-distriion Activation Steering Technique) を提案する。ROAST(Rollout-based On-Distribution Activation Steering Technique) は,ROAST(Rollout-based On-Distriion Activation Steering Technique) をROAST(Rollout-based On-Distriion Activation Steering Technique) として,ROAST(Rollout-based On-Distriion Activation Steering Technique) をROAST(Rollout-based On-Retribution Activation Steering Technique) として提案する。
我々の経験的分析によると、活性化度は方向整合性と適度に相関するが、大きさのばらつきは重要であり、しばしば意味的品質に不均衡である。
このことから,高次活性化は正常化されていない場合,グローバルステアリングの方向を左右するリスクを負うことが示唆された。
これを解決するため、ROASTはサンプル間のコントリビューションのバランスをとるためにグループ正規化を採用し、コンセンサスステアリングの方向性をより堅牢に推定する。
ROASTは様々なタスク(例えばQwen3-0.6BはGSM8K、GLM4-32BはTruthfulQA、+12.1%)のパフォーマンスを継続的に改善し、CSSが活性化エネルギーをよりよく保存していることを示す。
関連論文リスト
- Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning [45.86058898829962]
Multi-Ad Distributionally Robust Optimization (GDRO)は、一様推論を超えて最適化第一のフレームワークである。
本稿では,EMA-debiased multiplicative-weight bandit samplerを用いて,周波数バイアスを伴わない集中的難易マージンと過度にハードなグループをターゲットとした2つの独立したGDROゲームと,グループ間のロールアウトをシャドウプライスコントローラで再配置し,固定平均予算下でのハードタスクの勾配分散低減を最大化するRollout-GDROを提案する。
Qを用いたDAPO 14.1kデータセット上でのフレームワークの検証
論文 参考訳(メタデータ) (2026-01-27T07:10:41Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Adaptive Sample-Level Framework Motivated by Distributionally Robust Optimization with Variance-Based Radius Assignment for Enhanced Neural Network Generalization Under Distribution Shift [0.8101875496469488]
経験的リスク最小化(ERM)を用いて訓練された深層ニューラルネットワークの信頼性を損なう場合が多い。
本稿では、リスクの高いトレーニングサンプルを自動的に識別し、オンラインの損失分散に基づいて個人化されたロバスト性予算を割り当てる分散駆動型サンプルレベルDROフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T10:20:21Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Improving LLM Reasoning through Interpretable Role-Playing Steering [33.25597755294326]
ロールプレイングは大規模言語モデル(LLM)の推論能力を高める効果的な手法として登場した。
Sparse Autoencoder Role-Playing Steering (SRPS) は、ロールプレイング行動に関連する内部モデルの特徴を特定し、操作する新しいフレームワークである。
提案手法は,ロールプレイプロンプトから潜在表現を抽出し,アクティベーションパターンに基づいて最も関連性の高い特徴を選択し,制御可能な強度でモデルの残留ストリームに注入可能なステアリングベクトルを構築する。
論文 参考訳(メタデータ) (2025-06-09T00:31:17Z) - Shifting Perspectives: Steering Vectors for Robust Bias Mitigation in LLMs [8.91107152198979]
本稿では,大規模言語モデル(LLM)において,前方通過におけるモデルアクティベーションの修正にステアリングベクトルを適用することにより,バイアス軽減手法を提案する。
我々は、BBQデータセットのトレーニングサブセット上で、それぞれ異なる社会的バイアス軸に対応する8つのステアリングベクトルを計算し、これらの有効性を4つのデータセットにまたがる3つのバイアス緩和手法と比較する。
BBQデータセットに最適化すると、個別に調整されたステアリングベクトルは、BBQで12.8%、CLEAR-Biasで8.3%、StereoSetで1%の平均的な改善が達成される。
論文 参考訳(メタデータ) (2025-03-07T12:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。