論文の概要: FishBack: Pullback Fisher Geometry for Optimal Activation Steering in Transformers
- arxiv url: http://arxiv.org/abs/2605.17231v1
- Date: Sun, 17 May 2026 03:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.787889
- Title: FishBack: Pullback Fisher Geometry for Optimal Activation Steering in Transformers
- Title(参考訳): FishBack: 変圧器の最適活性化ステアリングのためのプルバック漁業形状
- Authors: Sihan Wang, Jiayi Zhao,
- Abstract要約: アクティベーションステアリング法は、出力の振る舞いを制御するために言語モデルの中間表現を変更するが、アクティベーション空間がユークリッドであることを普遍的に仮定する。
モデル自身の出力挙動によって誘導される局所幾何学は、GPT-2上の相対スペクトルノルムにおいて、ユークリッド計量から97%以上逸脱する。
- 参考スコア(独自算出の注目度): 7.108048394322025
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Activation steering methods modify intermediate representations of language models to control output behavior, but universally assume the activation space is Euclidean. We show this assumption fails drastically: the local geometry induced by the model's own output behavior -- the Fisher information metric of the softmax layer, pulled back through the Jacobian of subsequent layers -- deviates from the Euclidean metric by over 97% in relative spectral norm on GPT-2, with an effective dimensionality of only 2--17% of the ambient space. From this pullback Fisher metric, we derive a closed-form steering equation that identifies the minimum-distortion direction for any target concept, yielding a closed-form optimal direction at each point that can be applied iteratively without manifold fitting or data-driven geometry estimation. We call the resulting framework FishBack. The metric admits a layer-wise recursive decomposition, which reveals that existing methods -- CAA, ActAdd, ITI, and others -- each implicitly adopt a particular approximate metric, and that their performance gaps are quantitatively predicted by a single spectral diagnostic: the ratio of their implicit metric's cost to the Fisher-optimal cost. On GPT-2, iterative pullback steering consistently outperforms all Euclidean baselines across three verb-morphology concepts and four layers, with off-target KL reductions of $1.3\times$--$2.5\times$ relative to Euclidean gradient ascent and $1.5\times$ relative to CAA at matched concept probability.
- Abstract(参考訳): アクティベーションステアリング法は、出力の振る舞いを制御するために言語モデルの中間表現を変更するが、アクティベーション空間がユークリッドであることを普遍的に仮定する。
モデル自身の出力挙動によって引き起こされる局所幾何学(ソフトマックス層のフィッシャー情報計量)は、GPT-2上の相対スペクトルノルムにおいてユークリッド計量から97%以上逸脱し、周囲空間の2~17%の有効次元しか持たない。
この引き戻しフィッシャー計量から、任意の目標概念に対する最小歪み方向を識別する閉形式ステアリング方程式を導出し、多様体のフィッティングやデータ駆動幾何推定なしに反復的に適用できる各点における閉形式最適方向を導出する。
結果のフレームワークを FishBack と呼んでいます。
このメトリクスはレイヤーワイズ再帰分解を認めており、CAA、ActAdd、ITIなどの既存のメソッドがそれぞれ特定の近似計量を暗黙的に採用し、それらのパフォーマンスギャップは単一のスペクトル診断によって定量的に予測される。
GPT-2では、反復的なプルバックステアリングは、3つの動詞形態概念と4つの層でユークリッド基底線を一貫して上回り、目標外KLはユークリッド勾配の上昇に対して1.3\times$--2.5\times$と一致する概念確率でCAAと比較して1.5\times$である。
関連論文リスト
- Angle-I2P: Angle-Consistent-Aware Hierarchical Attention for Cross-Modality Outlier Rejection [20.302748104301525]
イメージ・ツー・ポイント・クラウド・レジストレーション(I2P)は、操作、グラッピング、ローカライゼーションといったロボットアプリケーションにおける基本的なタスクである。
本稿では,アングル-I2Pを提案する。アングル-I2Pは,アングル-一貫性のある幾何学的制約と階層的注意を生かした外乱リジェクションネットワークである。
提案手法は、7Scenes, RGBD Scenes V2, and a self-collected data。
論文 参考訳(メタデータ) (2026-05-06T06:41:56Z) - Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams [0.0]
有害な意図は、大きな言語モデル残ストリームから幾何的に回復可能である。
我々はこの幾何学を6つの方向決定戦略によって特徴づける。
AdvBenchはホールドアウトのHarmBenchとJailbreakBenchにAUROC 0.96で転送される。
論文 参考訳(メタデータ) (2026-04-20T23:02:37Z) - Fisher Decorator: Refining Flow Policy via A Local Transport Map [22.885775277923106]
フローベースオフライン強化学習(RL)は,フローマッチングによるポリシのパラメータ化によって,高い性能を実現している。
既存のフローポリシーは、2-ワッサーシュタイン距離(W$)の上限として$L$正規化を解釈する。
行動ポリシー多様体は本質的に異方性を持ち、$L$正規化は等方性と密度非感性である。
誘導密度変換を解析することにより、フィッシャー情報行列が支配するKL制約対象の局所2次近似を導出する。
論文 参考訳(メタデータ) (2026-04-20T07:54:36Z) - Functionality-Oriented LLM Merging on the Fisher--Rao Manifold [14.349284217707575]
重み空間のマージは、複数の微調整LDMを再訓練せずに単一のモデルに組み合わせることを目的としている。
我々は,標準を守り,マルチエキスパートマージに直接一般化する軽量な球面プロキシを用いて,実用的な固定点アルゴリズムを導出する。
論文 参考訳(メタデータ) (2026-03-05T09:08:38Z) - Structure-Informed Estimation for Pilot-Limited MIMO Channels via Tensor Decomposition [51.56484100374058]
本稿では、スパース観測から低ランクテンソル完備化としてパイロットリミテッドチャネル推定を定式化する。
合成チャネル実験による最小二乗平均二乗誤差(NMSE)の最小二乗平均誤差(LS)に対する改善
DeepMIMO線トレーシングチャネルの評価では、純粋なテンソル法よりも24-44%NMSEが減少している。
論文 参考訳(メタデータ) (2026-02-03T23:38:05Z) - Scaling Bidirectional Spans and Span Violations in Attention Mechanism [5.755498052202004]
canonical $O(N2)$ Transformerは、シーケンスモデリングにおける経験的なパフォーマンスフロンティアのままである。
本研究では,非対称なプロジェクションを利用して後方方向の勾配を並列スパンに分解する最適化フレームワークを提案する。
我々はこれらのコンポーネントを選択的にスケーリングし、主に0分の1の双方向並列スパンにフォーカスすることで、最も効果的な学習信号が得られることを示した。
論文 参考訳(メタデータ) (2025-12-15T07:03:24Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Detecting Rotated Objects as Gaussian Distributions and Its 3-D
Generalization [81.29406957201458]
既存の検出方法は、パラメータ化バウンディングボックス(BBox)を使用して(水平)オブジェクトをモデル化し、検出する。
このような機構は回転検出に有効な回帰損失を構築するのに基本的な限界があると主張する。
回転した物体をガウス分布としてモデル化することを提案する。
2次元から3次元へのアプローチを、方向推定を扱うアルゴリズム設計により拡張する。
論文 参考訳(メタデータ) (2022-09-22T07:50:48Z) - Improving Metric Dimensionality Reduction with Distributed Topology [68.8204255655161]
DIPOLEは、局所的、計量的項と大域的、位相的項の両方で損失関数を最小化し、初期埋め込みを補正する次元推論後処理ステップである。
DIPOLEは、UMAP、t-SNE、Isomapといった一般的な手法よりも多くの一般的なデータセットで優れています。
論文 参考訳(メタデータ) (2021-06-14T17:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。