論文の概要: End-to-end Learning of Sparse Interventions on Activations to Steer Generation
- arxiv url: http://arxiv.org/abs/2503.10679v1
- Date: Tue, 11 Mar 2025 14:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 16:13:36.947377
- Title: End-to-end Learning of Sparse Interventions on Activations to Steer Generation
- Title(参考訳): ステアジェネレーションにおけるスパース介入のエンド・ツー・エンド学習
- Authors: Pau Rodriguez, Michal Klein, Eleonora Gualdoni, Arno Blaas, Luca Zappella, Marco Cuturi, Xavier Suau,
- Abstract要約: 生成モデルのためのエンド・ツー・エンドアクティベーション・ステアリング(LinEAS)を提案する。
LinEASは、すべての階層的な分散シフトを同時に行うグローバルな損失で訓練されている。
本稿では,LinEASの介入を合成し,疎度の影響について検討し,テキスト・画像拡散における応用例を示す。
- 参考スコア(独自算出の注目度): 22.49573216148707
- License:
- Abstract: The growing use of generative models in daily life calls for efficient mechanisms to control their generation, to e.g., produce safe content or provide users with tools to explore style changes. Ideally, such mechanisms should be cheap, both at train and inference time, while preserving output quality. Recent research has shown that such mechanisms can be obtained by intervening exclusively on model activations, with the goal of correcting distributional differences between activations seen when using prompts from a source vs. a target set (e.g., toxic and non-toxic sentences). While cheap, these fast methods are inherently crude: their maps are tuned locally, not accounting for their impact on downstream layers, resulting in interventions that cause unintended shifts when used out-of-sample. We propose in this work linear end-to-end activation steering (LinEAS), an approach trained with a global loss that accounts simultaneously for all layerwise distributional shifts. In addition to being more robust, the loss used to train LinEAS can be regularized with sparsifying norms, which can automatically carry out neuron and layer selection. Empirically, LinEAS only requires a handful of samples to be effective, and beats similar baselines on toxicity mitigation, while performing on par with far more involved finetuning approaches. We show that LinEAS interventions can be composed, study the impact of sparsity on their performance, and showcase applications in text-to-image diffusions.
- Abstract(参考訳): 日常生活における生成モデルの利用の増加は、例えば、安全なコンテンツを作成したり、スタイルの変更を探索するためのツールをユーザに提供したり、その生成を制御する効率的なメカニズムを要求している。
理想的には、そのようなメカニズムは、アウトプットの品質を維持しながら、列車と推論の時間の両方で安価であるべきです。
近年の研究では、このようなメカニズムは、ソースからのプロンプトとターゲットセット(例えば、有毒な文と非有毒な文)によるアクティベーションの分布差を補正することを目的として、モデルアクティベーションのみに介入することで得られることが示されている。
地図は、下流の層への影響を考慮せずに、ローカルに調整され、その結果、サンプル外の使用時に意図しない変更を引き起こす。
本稿では,全層分布シフトを同時に考慮したグローバルな損失をトレーニングした線形エンド・ツー・エンドアクティベーションステアリング(LinEAS)を提案する。
より堅牢なことに加えて、LinEASのトレーニングに使用される損失は、神経と層選択を自動で実行するスペーシングノルムで正規化することができる。
実験的に、LinEASは有効となるのに少数のサンプルしか必要とせず、毒性の緩和に類似したベースラインを破り、より複雑な微調整のアプローチに匹敵する。
本稿では,LinEASの介入を合成し,疎度の影響について検討し,テキスト・画像拡散における応用例を示す。
関連論文リスト
- Probe-Free Low-Rank Activation Intervention [26.502232859901167]
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。
本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:03:05Z) - Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias Suppression [12.44857030152608]
ディープニューラルネットワークは、高リスクアプリケーションにおいて致命的な結果をもたらす可能性のあるトレーニングデータにおいて、学習と急激な相関に依存する傾向があります。
余剰訓練を伴わずにポストホックに適用できる有害な特徴に対するモデル依存を抑制するための様々なアプローチが提案されている。
本稿では,モデル由来の知識とeXplainable Artificial Intelligence(XAI)の洞察に基づくリアクティブアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-15T09:16:49Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - VRA: Variational Rectified Activation for Out-of-distribution Detection [45.804178022641764]
アウト・オブ・ディストリビューション(OOD)検出は、オープンな世界で信頼性の高い機械学習システムを構築する上で重要である。
ReActはモデル過信に対処する典型的な効果的な手法であり、高いアクティベーションを減らし、流通とOODのギャップを増大させる。
本稿では,これらの抑制と増幅操作を一括関数を用いてシミュレートする「変分整定活性化(VRA)'」という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T00:45:14Z) - Ensemble plasticity and network adaptability in SNNs [0.726437825413781]
人工スパイキングニューラルネットワーク(ASNN)は、離散的なイベントベース(スパイク)計算のため、より優れた情報処理効率を約束する。
本研究では,スパイク活動のみを用いたエントロピーとネットワークアクティベーションに基づく新しいアンサンブル学習手法を提案する。
その結果, スパイクレートの低いニューロンクラスターを刈り取ると, 一般化や性能の低下が予想されることがわかった。
論文 参考訳(メタデータ) (2022-03-11T01:14:51Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Regularization with Latent Space Virtual Adversarial Training [4.874780144224057]
VAT(Virtual Adversarial Training)は,最近開発された正規化手法において顕著な結果を示した。
入力空間の代わりに潜在空間の摂動を注入するLVATを提案する。
LVATは反対のサンプルを柔軟に生成することができ、より有害な効果をもたらし、より効果的な正則化をもたらす。
論文 参考訳(メタデータ) (2020-11-26T08:51:38Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。