論文の概要: MidSteer: Optimal Affine Framework for Steering Generative Models
- arxiv url: http://arxiv.org/abs/2605.05220v1
- Date: Fri, 17 Apr 2026 19:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.607168
- Title: MidSteer: Optimal Affine Framework for Steering Generative Models
- Title(参考訳): MidSteer: 生成モデルをステアリングするための最適なアフィンフレームワーク
- Authors: Tatiana Gaintseva, Andrew Stepanov, Ziquan Liu, Martin Benning, Gregory Slabaugh, Jiankang Deng, Ismail Elezi,
- Abstract要約: MidSteerは概念操作のためのより一般的なアフィンフレームワークで、仮定を緩和し、指向性の最小分散変換を可能にする。
私たちは、様々なタスク、モダリティ、アーキテクチャにおいて、MidSteerが好適に機能することを示します。
- 参考スコア(独自算出の注目度): 53.89402578892719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering intermediate representations has emerged as a powerful strategy for controlling generative models, particularly in post-deployment alignment and safety settings. However, despite its empirical success, it currently lacks a comprehensive theoretical framework. In this paper, we bridge this gap by formalizing the theory of concept steering. First, we establish a link between steering and affine concept erasure, proving that the standard approach for removing unwanted behaviors is a special case of LEACE (a closed-form method for affine erasure). Next, we formulate a principled theoretical framework for concept switching, LEACE-Switch, and characterize the assumptions under which it provides an optimal affine solution. Building on this analysis, we then introduce MidSteer (Minimal Disturbance concept Steering), a more general affine framework for concept manipulation that relaxes these assumptions and enables directed, minimal-disturbance transformations. We demonstrate that MidSteer performs favorably across a range of tasks, modalities, and architectures, including vision diffusion models and large language models.
- Abstract(参考訳): 中間表現のステアリングは、特にデプロイ後のアライメントと安全性設定において、生成モデルを制御する強力な戦略として登場した。
しかし、実証的な成功にもかかわらず、現在は包括的な理論的な枠組みが欠如している。
本稿では,概念ステアリングの理論を定式化することによって,このギャップを埋める。
まず、ステアリングとアフィン概念消去の関連性を確立し、望ましくない行動を取り除くための標準的なアプローチがLEACE(アフィン消去のクローズドフォーム法)の特殊なケースであることを証明した。
次に, 概念スイッチング, LEACE-Switch の原理的枠組みを定式化し, 最適アフィン解を提供する仮定を特徴づける。
この分析に基づいて、これらの仮定を緩和し、指向性、最小分散変換を可能にする概念操作のためのより一般的なアフィンフレームワークであるMidSteer(Minimal Disturbance concept Steering)を導入する。
視覚拡散モデルや大規模言語モデルを含む,様々なタスク,モダリティ,アーキテクチャにおいて,MidSteerが好適に動作することを示す。
関連論文リスト
- Hyperbolic Concept Bottleneck Models [17.962222104908648]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念の集合に入力を拘束することで、ニューラルネットワークの解釈可能性を実現するための一般的なアプローチとなっている。
本稿では,ハイパーボリック空間における非対称な幾何学的包摂として概念活性化を再構成することにより,この構造におけるボトルネックを解消するポストホック・フレームワークであるハイパーボリック・コンセプト・ボトルネック・モデル(HypCBM)を提案する。
概念のentailment coneの範囲内でのインクルージョンの限界は、余分な監督や学習モジュールなしで、階層的に認識されたアクティベーションをもたらす。
論文 参考訳(メタデータ) (2026-05-07T15:41:22Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [30.07172193932125]
本稿では,JAM(Joint Autoencoder Modulator)が独立に訓練された表現のアライメントを誘導することを示す。
本研究は, 共通意味論の構造に関する理論的知見と, 一般論的な一助的基礎を専門的マルチモーダルモデルに変換するための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。
提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。
これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-10T16:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。