論文の概要: Fusion Steering: Prompt-Specific Activation Control
- arxiv url: http://arxiv.org/abs/2505.22572v1
- Date: Wed, 28 May 2025 16:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.743568
- Title: Fusion Steering: Prompt-Specific Activation Control
- Title(参考訳): 核融合ステアリング:プロンプト特異的活性化制御
- Authors: Waldemar Chang, Alhassan Yasin,
- Abstract要約: Fusion Steeringは、質問応答(QA)タスクのための大規模言語モデル(LLM)の事実精度を改善する。
このアプローチでは、フルレイヤのステアリングやセグメント化されたステアリングなど、フレキシブルなステアリング構成を導入している。
より厳格なSimpleQAルーブリックの下では、セグメンテッドステアリングは0.0%から13.1%に完全に正しい応答を加速する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Fusion Steering, an activation steering methodology that improves factual accuracy in large language models (LLMs) for question-answering (QA) tasks. This approach introduces flexible steering configurations, including full-layer steering and segmented steering. Unlike traditional methods constrained to single-layer or fixed-layer operations, Fusion Steering employs dynamic injection of prompt-specific activation deltas across all transformer layers. These activation deltas are derived from reference completions that combine the ground-truth answer with a model-generated explanation to facilitate semantically enriched, example-specific steering. The injection weights are optimized per prompt using Optuna, targeting a joint objective that balances token overlap (factual alignment) and perplexity (fluency proxy). Evaluation employs a composite score integrating token overlap and LLM-graded quality, encompassing factual accuracy, coherence, and relevance. Empirical results on 260 SimpleQA prompts (selected from 500 where the baseline failed) showcase the efficacy of segmented steering. Using Gemma-2-2B-IT with 8-bit quantization, segmented steering achieves an accuracy of 25.4% (outputs scoring $\geq 0.6$), outperforming the baseline at 3.5% and full-layer steering at 16.2%. Under the stricter SimpleQA rubric, segmented steering boosts fully correct responses from 0.0% to 13.1%. These findings highlight the strengths of segmented, dynamic intervention strategies and the promise of per-prompt, full-network activation control. Fusion Steering is also amenable to sparse representations, such as Neuronpedia or sparse crosscoders, suggesting a promising direction for interpretable and scalable activation-level control in LLMs.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)における質問応答(QA)タスクの現実的精度を向上させる,アクティベーションステアリング手法であるFusion Steeringを提案する。
このアプローチでは、フルレイヤのステアリングやセグメント化されたステアリングなど、フレキシブルなステアリング構成を導入している。
単一層または固定層操作に制約された従来の方法とは異なり、Fusion Steeringはすべてのトランスフォーマー層にプロンプト固有のアクティベーションデルタを動的に注入する。
これらのアクティベーションデルタは、接地真実の答えとモデル生成の説明を組み合わせることで、意味的にリッチな、例固有のステアリングを促進するための参照完了から導かれる。
インジェクションウェイトは、トークンのオーバーラップ(実際のアライメント)とパープレキシティ(周波数プロキシ)のバランスをとる共同目標を対象として、Opsunaを使用してプロンプト毎に最適化される。
評価には、トークンオーバーラップとLLMグレードの品質を統合した複合スコアを使用し、事実の正確性、コヒーレンス、関連性を含んでいる。
260 SimpleQAプロンプト(ベースラインが故障した500から選択された)の実験的結果は、セグメンテッドステアリングの有効性を示した。
8ビットの量子化でGemma-2-2B-ITを使用すると、セグメンテッドステアリングの精度は25.4%(出力は$\geq 0.6$)で、ベースラインは3.5%、フルレイヤーステアリングは16.2%である。
より厳格なSimpleQAルーブリックの下では、セグメンテッドステアリングは0.0%から13.1%に完全に正しい応答を加速する。
これらの知見は、セグメント化された動的介入戦略の強みと、プロンプトごとのフルネットワークアクティベーション制御の可能性を浮き彫りにした。
Fusion Steeringは、NeuronpediaやSparse Crosscodersのようなスパース表現にも適しており、LLMにおける解釈可能でスケーラブルなアクティベーションレベル制御のための有望な方向を示唆している。
関連論文リスト
- Weight Updates as Activation Shifts: A Principled Framework for Steering [54.70188910511715]
アクティベーションステアリングは極めてパラメータ効率のよい適応形態となるが、その有効性は重要な設計選択に依存する。
我々は,活性化空間介入と重量空間更新の1次等価性を確立し,活性化ステアリングが微調整動作を再現できる条件を導出する。
この等価性は、設計をステアリングするための原則的な枠組みをもたらし、ポストブロック出力を理論的に支持され、非常に表現力のある介入サイトとして特定する。
論文 参考訳(メタデータ) (2026-02-28T02:50:04Z) - ROAST: Rollout-based On-distribution Activation Steering Technique [16.632201561391366]
アクティベーションステアリングは、推論時に大きな言語モデルをパラメータ効率よく制御する。
本稿では,ROAST(Rollout-based On-distriion Activation Steering Technique)を提案する。
我々の経験的分析によると、活性化度は方向整合性と適度に相関するが、大きさのばらつきは重要であり、しばしば意味的品質に不均衡である。
論文 参考訳(メタデータ) (2026-02-15T13:30:26Z) - Steer2Edit: From Activation Steering to Component-Level Editing [24.755027943286432]
我々は、ステアリングベクトルをコンポーネントランク1の重み付けのための診断信号に変換する、トレーニング不要のフレームワークであるSteer2Editを提案する。
安全性のアライメント、属性緩和、推論効率などを通じて、Steer2Editは一貫して、より好ましい属性ユーティリティトレードオフを実現している。
全体として、Steer2Editは表現ステアリングとウェイト編集の間に原則化されたブリッジを提供する。
論文 参考訳(メタデータ) (2026-02-10T15:15:15Z) - Internalizing LLM Reasoning via Discovery and Replay of Latent Actions [4.830503861275364]
連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。
動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:44:57Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - CorrSteer: Generation-Time LLM Steering via Correlated Sparse Autoencoder Features [1.5874067490843806]
提案するCorrSteerは,サンプルの正しさとSAEのアクティベーションを推論時に生成したトークンから関連付けて特徴を選択する。
我々の研究は、言語モデルアプリケーション間での自動SAEステアリングのための効果的でスケーラブルなアプローチとして相関ベースの選択を確立する。
論文 参考訳(メタデータ) (2025-08-18T00:01:42Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering [26.428347164111926]
推論時ステアリングは、パラメータを変更することなく、大きな言語モデルの応答を変更することを目的としている。
既存のアプローチはしばしば単純化的なキューやアドホックな一般化に依存している。
本稿では,Transformerモデルにおける振る舞い関連モジュールを識別するフレームワークであるREALを紹介する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Effectively Steer LLM To Follow Preference via Building Confident Directions [39.40603123075168]
本稿では,モデルステアリング手法の理解と定量化のための理論的枠組みを提案する。
本フレームワークに着想を得て,LDMの活性化を制御できる確実な方向ステアリング法(CONFST)を提案する。
このアプローチは、一般的な双方向モデルステアリング方法に対して、3つの大きな利点を提供します。
論文 参考訳(メタデータ) (2025-03-04T20:32:27Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
JoLAは既存のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Annotator: A Generic Active Learning Baseline for LiDAR Semantic
Segmentation [40.803251337200656]
Annotatorは汎用的で効率的なアクティブラーニングベースラインである。
ボクセル中心のオンライン選択戦略は、各LiDARスキャン内の正当性と卓越したボクセルギルドを効率よく調査し、注釈付けするように調整されている。
アノテーションは多様な設定で優れており、特にアクティブラーニング(AL)、アクティブソースフリードメイン適応(ASFDA)、アクティブドメイン適応(ADA)に焦点を当てている。
論文 参考訳(メタデータ) (2023-10-31T09:04:39Z) - RelationTrack: Relation-aware Multiple Object Tracking with Decoupled
Representation [3.356734463419838]
既存のオンラインマルチオブジェクトトラッキング(MOT)アルゴリズムは、しばしば2つのサブタスク、検出および再識別(ReID)で構成されています。
推論速度を高め、複雑さを減らすために、現在のメソッドは一般的にこれらの二重サブタスクを統一されたフレームワークに統合します。
学習した表現を検出特異的およびReID固有の埋め込みに分離するGlobal Context Disentangling(GCD)というモジュールを考案した。
この制約を解決するために,トランスコーダの強力な推論能力と変形可能な注意を組み合わせることで,誘導トランス(gte)と呼ばれるモジュールを開発した。
論文 参考訳(メタデータ) (2021-05-10T13:00:40Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - AutoAssign: Differentiable Label Assignment for Dense Object Detection [94.24431503373884]
Auto COCOは、物体検出のためのアンカーフリー検出器である。
外観認識は、完全に微分可能な重み付け機構によって実現される。
我々の最良のモデルでは52.1%のAPが達成され、既存の1段検出器よりも優れている。
論文 参考訳(メタデータ) (2020-07-07T14:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。