論文の概要: Fusion Steering: Prompt-Specific Activation Control
- arxiv url: http://arxiv.org/abs/2505.22572v1
- Date: Wed, 28 May 2025 16:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.743568
- Title: Fusion Steering: Prompt-Specific Activation Control
- Title(参考訳): 核融合ステアリング:プロンプト特異的活性化制御
- Authors: Waldemar Chang, Alhassan Yasin,
- Abstract要約: Fusion Steeringは、質問応答(QA)タスクのための大規模言語モデル(LLM)の事実精度を改善する。
このアプローチでは、フルレイヤのステアリングやセグメント化されたステアリングなど、フレキシブルなステアリング構成を導入している。
より厳格なSimpleQAルーブリックの下では、セグメンテッドステアリングは0.0%から13.1%に完全に正しい応答を加速する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Fusion Steering, an activation steering methodology that improves factual accuracy in large language models (LLMs) for question-answering (QA) tasks. This approach introduces flexible steering configurations, including full-layer steering and segmented steering. Unlike traditional methods constrained to single-layer or fixed-layer operations, Fusion Steering employs dynamic injection of prompt-specific activation deltas across all transformer layers. These activation deltas are derived from reference completions that combine the ground-truth answer with a model-generated explanation to facilitate semantically enriched, example-specific steering. The injection weights are optimized per prompt using Optuna, targeting a joint objective that balances token overlap (factual alignment) and perplexity (fluency proxy). Evaluation employs a composite score integrating token overlap and LLM-graded quality, encompassing factual accuracy, coherence, and relevance. Empirical results on 260 SimpleQA prompts (selected from 500 where the baseline failed) showcase the efficacy of segmented steering. Using Gemma-2-2B-IT with 8-bit quantization, segmented steering achieves an accuracy of 25.4% (outputs scoring $\geq 0.6$), outperforming the baseline at 3.5% and full-layer steering at 16.2%. Under the stricter SimpleQA rubric, segmented steering boosts fully correct responses from 0.0% to 13.1%. These findings highlight the strengths of segmented, dynamic intervention strategies and the promise of per-prompt, full-network activation control. Fusion Steering is also amenable to sparse representations, such as Neuronpedia or sparse crosscoders, suggesting a promising direction for interpretable and scalable activation-level control in LLMs.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)における質問応答(QA)タスクの現実的精度を向上させる,アクティベーションステアリング手法であるFusion Steeringを提案する。
このアプローチでは、フルレイヤのステアリングやセグメント化されたステアリングなど、フレキシブルなステアリング構成を導入している。
単一層または固定層操作に制約された従来の方法とは異なり、Fusion Steeringはすべてのトランスフォーマー層にプロンプト固有のアクティベーションデルタを動的に注入する。
これらのアクティベーションデルタは、接地真実の答えとモデル生成の説明を組み合わせることで、意味的にリッチな、例固有のステアリングを促進するための参照完了から導かれる。
インジェクションウェイトは、トークンのオーバーラップ(実際のアライメント)とパープレキシティ(周波数プロキシ)のバランスをとる共同目標を対象として、Opsunaを使用してプロンプト毎に最適化される。
評価には、トークンオーバーラップとLLMグレードの品質を統合した複合スコアを使用し、事実の正確性、コヒーレンス、関連性を含んでいる。
260 SimpleQAプロンプト(ベースラインが故障した500から選択された)の実験的結果は、セグメンテッドステアリングの有効性を示した。
8ビットの量子化でGemma-2-2B-ITを使用すると、セグメンテッドステアリングの精度は25.4%(出力は$\geq 0.6$)で、ベースラインは3.5%、フルレイヤーステアリングは16.2%である。
より厳格なSimpleQAルーブリックの下では、セグメンテッドステアリングは0.0%から13.1%に完全に正しい応答を加速する。
これらの知見は、セグメント化された動的介入戦略の強みと、プロンプトごとのフルネットワークアクティベーション制御の可能性を浮き彫りにした。
Fusion Steeringは、NeuronpediaやSparse Crosscodersのようなスパース表現にも適しており、LLMにおける解釈可能でスケーラブルなアクティベーションレベル制御のための有望な方向を示唆している。
関連論文リスト
- SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Effectively Steer LLM To Follow Preference via Building Confident Directions [39.40603123075168]
本稿では,モデルステアリング手法の理解と定量化のための理論的枠組みを提案する。
本フレームワークに着想を得て,LDMの活性化を制御できる確実な方向ステアリング法(CONFST)を提案する。
このアプローチは、一般的な双方向モデルステアリング方法に対して、3つの大きな利点を提供します。
論文 参考訳(メタデータ) (2025-03-04T20:32:27Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
JoLAは既存のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Annotator: A Generic Active Learning Baseline for LiDAR Semantic
Segmentation [40.803251337200656]
Annotatorは汎用的で効率的なアクティブラーニングベースラインである。
ボクセル中心のオンライン選択戦略は、各LiDARスキャン内の正当性と卓越したボクセルギルドを効率よく調査し、注釈付けするように調整されている。
アノテーションは多様な設定で優れており、特にアクティブラーニング(AL)、アクティブソースフリードメイン適応(ASFDA)、アクティブドメイン適応(ADA)に焦点を当てている。
論文 参考訳(メタデータ) (2023-10-31T09:04:39Z) - RelationTrack: Relation-aware Multiple Object Tracking with Decoupled
Representation [3.356734463419838]
既存のオンラインマルチオブジェクトトラッキング(MOT)アルゴリズムは、しばしば2つのサブタスク、検出および再識別(ReID)で構成されています。
推論速度を高め、複雑さを減らすために、現在のメソッドは一般的にこれらの二重サブタスクを統一されたフレームワークに統合します。
学習した表現を検出特異的およびReID固有の埋め込みに分離するGlobal Context Disentangling(GCD)というモジュールを考案した。
この制約を解決するために,トランスコーダの強力な推論能力と変形可能な注意を組み合わせることで,誘導トランス(gte)と呼ばれるモジュールを開発した。
論文 参考訳(メタデータ) (2021-05-10T13:00:40Z) - AutoAssign: Differentiable Label Assignment for Dense Object Detection [94.24431503373884]
Auto COCOは、物体検出のためのアンカーフリー検出器である。
外観認識は、完全に微分可能な重み付け機構によって実現される。
我々の最良のモデルでは52.1%のAPが達成され、既存の1段検出器よりも優れている。
論文 参考訳(メタデータ) (2020-07-07T14:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。