論文の概要: Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation
- arxiv url: http://arxiv.org/abs/2604.15559v1
- Date: Thu, 16 Apr 2026 22:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.669009
- Title: Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation
- Title(参考訳): AIエージェント蒸留における安全でない挙動のサブリミナル転送
- Authors: Jacob Dang, Brian Y. Xie, Omar G. Younis,
- Abstract要約: 本研究では, モデル蒸留により, 安全でないエージェントの挙動を2つの実験条件でサブリミナルに伝達可能であることを示す。
第一設定では、強い削除バイアスを示す教師エージェントを構築し、視覚的に安全なタスクからの軌跡のみを用いて学生に蒸留する。
ネイティブなBash環境で脅威モデルを複製し、APIツールコールをシェルコマンドに置き換え、最初のパーミッション関連コマンドとしてchmodを発行する代わりにバイアスを運用します。
- 参考スコア(独自算出の注目度): 0.7788319765644828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on subliminal learning demonstrates that language models can transmit semantic traits through data that is semantically unrelated to those traits. However, it remains unclear whether behavioral traits can transfer in agentic systems, where policies are learned from trajectories rather than static text. In this work, we provide the first empirical evidence that unsafe agent behaviors can transfer subliminally through model distillation across two complementary experimental settings. In our primary setting, we construct a teacher agent exhibiting a strong deletion bias, a tendency to perform destructive file-system actions via an API-style tool interface, and distill it into a student using only trajectories from ostensibly safe tasks, with all explicit deletion keywords rigorously filtered. In our secondary setting, we replicate the threat model in a native Bash environment, replacing API tool calls with shell commands and operationalizing the bias as a preference for issuing chmod as the first permission-related command over semantically equivalent alternatives such as chown or setfacl. Despite full keyword sanitation in both settings, students inherit measurable behavioral biases. In the API setting the student's deletion rate reaches 100% (versus a 5% baseline) under homogeneous distillation; in the Bash setting the student's chmod-first rate reaches 30%-55% (versus a 0%-10% baseline), with the strongest transfer observed in large-to-small distillation. Our results demonstrate that explicit data sanitation is an insufficient defense, and behavioral biases are encoded implicitly in trajectory dynamics regardless of the tool interface.
- Abstract(参考訳): サブリミナル学習に関する最近の研究は、言語モデルがそれらの特徴と意味的に無関係なデータを通して意味的特性を伝達できることを実証している。
しかし,静的テキストではなく軌跡からポリシーが学習されるエージェントシステムにおいて,行動特性が伝達できるかどうかは不明である。
本研究は, 2つの相補的な実験環境におけるモデル蒸留を通して, 不安全剤の挙動がサブリミナルに伝達可能であることを示す最初の実証的証拠を提供する。
第一設定では,強力な削除バイアス,APIスタイルのツールインターフェースを介して破壊的なファイルシステム動作を行う傾向を示す教師エージェントを構築し,視覚的に安全なタスクからのトラジェクトリのみを用いて学生に蒸留し,明示的な削除キーワードを厳格にフィルタリングする。
セカンダリ環境では、ネイティブなBash環境において脅威モデルを複製し、APIツールコールをシェルコマンドに置き換え、chmodをChownやsetfaclのような意味論的に等価な代替手段よりも最初のパーミッション関連コマンドとして発行する代わりにバイアスを運用します。
両方の設定において完全なキーワードの衛生にもかかわらず、学生は測定可能な行動バイアスを継承する。
API設定では、学生の削除率は均質蒸留で100%(約5%ベースライン)に達し、Bash設定では、学生のchmod-firstレートは30%-55%(約0%-10%ベースライン)に達し、大規模な蒸留で最も多く見られる。
以上の結果から, 明示的なデータ衛生は防御に不十分であり, 行動バイアスはツールインターフェースによらず, 軌道動的に暗黙的に符号化されることが示された。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification [5.044786941116112]
自己監督型マスクドモデリングは、生のバイトをマスキングして再構築することで、暗号化されたトラフィック分類を約束する。
最近の研究によると、これらの手法はコストのかかる事前訓練にもかかわらずラベル付きデータへの依存を減らすことができない。
トラフィックをシーケンスバイトにフラットにすることで、プロトコル定義のセマンティクスを破壊します。
論文 参考訳(メタデータ) (2026-03-09T15:15:23Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - Seed-Induced Uniqueness in Transformer Models: Subspace Alignment Governs Subliminal Transfer [0.3805935148497361]
教師が生徒が線形に復号化できる隠された特徴を埋め込むトランスフォーマーモデルにおけるサブリミナルトランスファーの分析を行う。
伝達強度は特性識別部分空間内のアライメントに比例する。
論文 参考訳(メタデータ) (2025-11-02T17:34:43Z) - Understanding Refusal in Language Models with Sparse Autoencoders [27.212781538459588]
我々はスパースオートエンコーダを用いて、拒絶動作を因果的に仲介する潜伏特徴を特定する。
我々は、世代への影響を評価するために、拒絶に関連する特徴に介入する。
これにより、アクティベーションレベルでのリファインダーの表示方法のきめ細かい検査が可能になる。
論文 参考訳(メタデータ) (2025-05-29T15:33:39Z) - Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - Learning Stable Classifiers by Transferring Unstable Features [59.06169363181417]
本研究では,素早い相関関係の存在下での伝達学習について検討する。
提案手法は, ソースタスクで学習した安定な特徴抽出器を直接転送しても, 対象タスクのバイアスを排除できないことを実験的に実証する。
我々は、ソースタスクの不安定な特徴とターゲットタスクの不安定な特徴が直接関連していると仮定する。
論文 参考訳(メタデータ) (2021-06-15T02:41:12Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。