論文の概要: Applying Refusal-Vector Ablation to Llama 3.1 70B Agents
- arxiv url: http://arxiv.org/abs/2410.10871v1
- Date: Tue, 08 Oct 2024 13:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:35.365938
- Title: Applying Refusal-Vector Ablation to Llama 3.1 70B Agents
- Title(参考訳): Llama 3.1 70B 剤に対するRefusal-Vector Ablationの適用
- Authors: Simon Lermen, Mateusz Dziemian, Govind Pimpale,
- Abstract要約: 本研究では,Llama 3.1 70Bにリファレルベクターアブレーションを適用し,単純なエージェントスキャフォールディングを実装し,制限のないエージェントを生成する。
以上の結果から,これらの拒否拒否ベクターアブレーションモデルが,流産やフィッシング攻撃などの有害なタスクを完了できることが示唆された。
Llama 3.1 インストラクションモデルでは,修正なしに最も有害なタスクを実行できるため,チャットモデルにおける安全性の微調整はエージェント動作に適さないことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, language models like Llama 3.1 Instruct have become increasingly capable of agentic behavior, enabling them to perform tasks requiring short-term planning and tool use. In this study, we apply refusal-vector ablation to Llama 3.1 70B and implement a simple agent scaffolding to create an unrestricted agent. Our findings imply that these refusal-vector ablated models can successfully complete harmful tasks, such as bribing officials or crafting phishing attacks, revealing significant vulnerabilities in current safety mechanisms. To further explore this, we introduce a small Safe Agent Benchmark, designed to test both harmful and benign tasks in agentic scenarios. Our results imply that safety fine-tuning in chat models does not generalize well to agentic behavior, as we find that Llama 3.1 Instruct models are willing to perform most harmful tasks without modifications. At the same time, these models will refuse to give advice on how to perform the same tasks when asked for a chat completion. This highlights the growing risk of misuse as models become more capable, underscoring the need for improved safety frameworks for language model agents.
- Abstract(参考訳): 近年、Llama 3.1インストラクトのような言語モデルでは、エージェント的な振る舞いがますます多くなり、短期的な計画やツールの使用を必要とするタスクを実行できるようになった。
本研究では,Llama 3.1 70Bにリファレルベクターアブレーションを適用し,単純なエージェントスキャフォールディングを実装し,制限のないエージェントを生成する。
以上の結果から,これらの拒否ベクターアブレーションモデルが,流産やフィッシング攻撃などの有害な作業の完了に成功し,現在の安全メカニズムに重大な脆弱性があることが示唆された。
これをさらに探求するために、エージェントシナリオにおける有害タスクと良性タスクの両方をテストするために設計された、小さなセーフエージェントベンチマークを導入する。
Llama 3.1 インストラクタモデルでは、修正なしに最も有害なタスクを実行できるため、チャットモデルにおける安全性の微調整は、エージェント的行動によく当てはまらないことを示唆している。
同時に、これらのモデルは、チャットの完了を尋ねると、同じタスクを実行する方法に関するアドバイスを拒むだろう。
これは、モデルがより有能になるにつれて、誤用が増加するリスクを強調し、言語モデルエージェントの安全性フレームワークの改善の必要性を強調している。
関連論文リスト
- Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use [6.622648583261088]
エージェント言語モデルは、単一のミスステップが不可逆的な害を引き起こす可能性のあるロングホライゾンアクションを計画、呼び出し、実行しなければなりません。
安全判断を明確化し,学習可能にすることで,エージェントを安全なマルチステップツール使用に整合させるフレームワークであるMOSAICを紹介する。
以上の結果から,MOSAICは有害行為を最大50%減らし,インジェクション攻撃で20%以上減らし,プライバシリークを減らし,良質なタスク性能を保ち,改善することを示した。
論文 参考訳(メタデータ) (2026-03-03T17:59:35Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety [2.7030665672026846]
大規模言語モデル(LLM)エージェントは、現実の結果を伴う複雑な環境でますます運用される。
信頼性に欠ける状況からLLMエージェントが認識・撤退するための、シンプルで効果的な行動機構として「クイッティング」を用いることを提案する。
論文 参考訳(メタデータ) (2025-10-18T13:22:19Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。
信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。
我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文 参考訳(メタデータ) (2025-08-21T07:08:16Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [8.266563350981984]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。
本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。
本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文 参考訳(メタデータ) (2025-08-02T07:59:34Z) - Design Patterns for Securing LLM Agents against Prompt Injections [26.519964636138585]
インジェクション攻撃は 自然言語入力に対する エージェントの弾力性を利用してる
本稿では,AIエージェントのインジェクションに対する抵抗性を証明可能な設計パターンのセットを提案する。
論文 参考訳(メタデータ) (2025-06-10T14:23:55Z) - AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models [23.916663925674737]
これまでの研究によると、現在のLSMベースのエージェントは攻撃を受けなくても多くの悪意あるタスクを実行している。
本稿では,安全なアライメントデータ合成の媒体として抽象的行動連鎖を利用する新しいフレームワークであるAgentAlignを提案する。
本フレームワークは,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令の生成を可能にする。
論文 参考訳(メタデータ) (2025-05-29T03:02:18Z) - Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。
15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-03-22T23:35:49Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Towards Action Hijacking of Large Language Model-based Agent [39.19067800226033]
我々は、ブラックボックスエージェントシステムのアクションプランを操作するための新しいハイジャック攻撃であるNoneを紹介する。
提案手法は, 安全フィルタの平均バイパス率92.7%を達成した。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - Steering Language Model Refusal with Sparse Autoencoders [16.78963326253821]
拒否動作を媒介するPhi-3 Miniの特徴を同定し,操舵する。
機能ステアリングはPhi-3 Minisのロバスト性を向上し,さまざまな障害に対するジェイルブレイクの試みに有効であることがわかった。
しかし、機能ステアリングはベンチマーク全体のパフォーマンスに悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2024-11-18T05:47:02Z) - Breaking ReAct Agents: Foot-in-the-Door Attack Will Get You In [5.65782619470663]
本稿では,直感的かつ効果的な手法でReActエージェントをどのように活用できるかを検討する。
実験の結果,間接的プロンプトインジェクション攻撃は,後続の悪意ある行為を行うエージェントの可能性を著しく高めることができることがわかった。
この脆弱性を軽減するために,エージェントが実行中の動作の安全性を再評価する簡単なリフレクション機構の実装を提案する。
論文 参考訳(メタデータ) (2024-10-22T12:24:41Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Model for Peanuts: Hijacking ML Models without Training Access is Possible [5.005171792255858]
モデルハイジャック(英: Model hijacking)とは、被害者のモデルをハイジャックして元のモデルとは異なるタスクを実行する攻撃である。
本研究では、未知の入力サンプルを分類するために、SnatchMLと呼ばれる推論時にモデルハイジャックを行うための簡単なアプローチを提案する。
最初にメタ学習と呼ぶ新しいアプローチを提案し、モデルが元のデータセットをトレーニングしながら潜在的に悪意のあるタスクを解放するのに役立つように設計した。
論文 参考訳(メタデータ) (2024-06-03T18:04:37Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - AGI Agent Safety by Iteratively Improving the Utility Function [0.0]
本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。
因果影響図(CID)にマッピングする作業が進行中であることを示す。
次に、既知の機械学習システムや将来のAGIレベルの学習システムに、安全層をラップする学習エージェントの設計を示す。
論文 参考訳(メタデータ) (2020-07-10T14:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。