論文の概要: Understanding and Mitigating Dataset Corruption in LLM Steering
- arxiv url: http://arxiv.org/abs/2603.03206v1
- Date: Tue, 03 Mar 2026 18:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.912578
- Title: Understanding and Mitigating Dataset Corruption in LLM Steering
- Title(参考訳): LLMステアリングにおけるデータセット破壊の理解と緩和
- Authors: Cullen Anderson, Narmeen Oozeer, Foad Namjoo, Remy Ogasawara, Amirali Abdullah, Jeff M. Phillips,
- Abstract要約: 本研究では, ノイズや逆データ破損に対するコントラッシブ・ステアリングの堅牢性について検討する。
操舵方向の学習における重要なステップは、高次元平均計算である。
このステップを、最近開発された堅牢な平均推定器で置き換えることによって、悪質な汚職の望ましくない影響の大部分を軽減できることが示されています。
- 参考スコア(独自算出の注目度): 6.00100484414311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive steering has been shown as a simple and effective method to adjust the generative behavior of LLMs at inference time. It uses examples of prompt responses with and without a trait to identify a direction in an intermediate activation layer, and then shifts activations in this 1-dimensional subspace. However, despite its growing use in AI safety applications, the robustness of contrastive steering to noisy or adversarial data corruption is poorly understood. We initiate a study of the robustness of this process with respect to corruption of the dataset of examples used to train the steering direction. Our first observation is that contrastive steering is quite robust to a moderate amount of corruption, but unwanted side effects can be clearly and maliciously manifested when a non-trivial fraction of the training data is altered. Second, we analyze the geometry of various types of corruption, and identify some safeguards. Notably, a key step in learning the steering direction involves high-dimensional mean computation, and we show that replacing this step with a recently developed robust mean estimator often mitigates most of the unwanted effects of malicious corruption.
- Abstract(参考訳): コントラストステアリングは,LLMの生成挙動を推論時に調節する簡便かつ効果的な方法として示されてきた。
中間活性化層の方向を特定し、この1次元部分空間の活性化をシフトするために、特性と非特性の迅速な応答の例を用いる。
しかし、AI安全アプリケーションでの利用が増えているにもかかわらず、ノイズや敵対的なデータの破損に対する対照的な操舵の堅牢性は理解されていない。
我々は、操舵方向のトレーニングに使用されるサンプルのデータセットの破損に関して、このプロセスの堅牢性の研究を開始する。
最初の観察では、コントラスト的なステアリングは、適度な量の汚職に対して非常に堅牢であるが、トレーニングデータの非自明な部分を変更すると、望ましくない副作用が明確かつ悪意的に現れる可能性がある。
第2に, 各種汚職の形状を分析し, いくつかの安全対策を同定する。
特に、操舵方向の学習における重要なステップは、高次元平均計算であり、このステップを最近開発された頑健な平均推定器で置き換えることで、悪質な汚職の望ましくない影響の大部分を軽減できることが示されている。
関連論文リスト
- Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [13.109309606764754]
我々は、ターゲットモデル自体の内部の階層的不整合を利用するプラグイン検出フレームワークを導入する。
本手法は計算オーバーヘッドを無視して最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - A Knowledge-guided Adversarial Defense for Resisting Malicious Visual Manipulation [93.28532038721816]
視覚的操作の悪意ある応用は、多くの分野でユーザーのセキュリティと評判に深刻な脅威をもたらしている。
本稿では,悪質な操作モデルを積極的に強制し,意味論的に混乱したサンプルを出力するために,知識誘導型敵防衛(KGAD)を提案する。
論文 参考訳(メタデータ) (2025-04-11T10:18:13Z) - Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions [8.666879925570331]
実世界のオフラインデータセットは、しばしばセンサーの故障や悪意のある攻撃によるデータ破損にさらされる。
既存の手法は、破損したデータによって引き起こされる高い不確実性の下で堅牢なエージェントを学ぶのに苦労している。
オフラインRL(TRACER)に対するロバストな変分ベイズ推定法を提案する。
論文 参考訳(メタデータ) (2024-11-01T09:28:24Z) - Enhancing Infrared Small Target Detection Robustness with Bi-Level
Adversarial Framework [61.34862133870934]
本稿では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対向的枠組みを提案する。
我々の手法は広範囲の汚職で21.96%のIOUを著しく改善し、特に一般ベンチマークで4.97%のIOUを推進している。
論文 参考訳(メタデータ) (2023-09-03T06:35:07Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Perspective Aware Road Obstacle Detection [104.57322421897769]
道路障害物検出技術は,車間距離が大きくなるにつれて障害物の見かけの規模が減少するという事実を無視することを示す。
画像位置毎に仮想物体の見かけの大きさを符号化したスケールマップを演算することでこれを活用できる。
次に、この視点マップを利用して、遠近法に対応する大きさの道路合成物体に注入することで、トレーニングデータを生成する。
論文 参考訳(メタデータ) (2022-10-04T17:48:42Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - PRIME: A Few Primitives Can Boost Robustness to Common Corruptions [60.119023683371736]
ディープ・ネットワークは データの汚職を 一般化するのに苦労しています
本稿では,最大エントロピー画像変換の単純なファミリーからなる汎用データ拡張スキームPRIMEを提案する。
PRIMEは従来の汚損防止技術よりも優れており,そのシンプルさとプラグ・アンド・プレイ性により,他の手法と組み合わせて堅牢性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-12-27T07:17:51Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。