論文の概要: Unintended Misalignment from Agentic Fine-Tuning: Risks and Mitigation
- arxiv url: http://arxiv.org/abs/2508.14031v1
- Date: Tue, 19 Aug 2025 17:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.037234
- Title: Unintended Misalignment from Agentic Fine-Tuning: Risks and Mitigation
- Title(参考訳): エージェントファインチューニングの意図しない過誤:リスクと緩和
- Authors: Dongyoon Hahm, Taywon Min, Woogyeol Jin, Kimin Lee,
- Abstract要約: エージェントタスクを実行するための微調整された大規模言語モデル(LLM)は、有害なタスクを実行する可能性が高くなる可能性がある。
プリフィックスインジェクションガード(PING)は、エージェント応答に自動的に生成された自然言語プレフィックスをプリペンドする。
Pingは、Webナビゲーションとコード生成タスクの両方において、さまざまなベンチマークで既存のプロンプトアプローチを一貫して上回っている。
- 参考スコア(独自算出の注目度): 19.30407680164485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Beyond simple text generation, Large Language Models (LLMs) have evolved into agentic systems capable of planning and interacting with external tools to solve complex tasks. This evolution involves fine-tuning LLMs on agent-specific tasks to enhance their proficiency. However, safety concerns are frequently overlooked during this fine-tuning process. In this work, we show that aligned LLMs can become unintentionally misaligned, leading to a higher likelihood of executing harmful tasks and a reduced tendency to refuse them when fine-tuned to execute agentic tasks. To address these safety challenges, we propose Prefix INjection Guard (PING), a simple yet effective method that prepends automatically generated natural language prefixes to agent responses, guiding them to refuse harmful requests while preserving performance on benign tasks. Specifically, we introduce an iterative approach that alternates between (1) generating candidate prefixes and (2) selecting those that optimize both task performance and refusal behavior. Experimental results demonstrate that PING significantly enhances the safety of fine-tuned LLM agents without sacrificing their effectiveness. PING consistently outperforms existing prompting approaches across diverse benchmarks in both web navigation and code generation tasks. Our analysis of internal hidden states via linear probes reveals that prefix tokens are crucial for behavior modification, explaining the performance gains. WARNING: This paper contains contents that are unethical or offensive in nature.
- Abstract(参考訳): 単純なテキスト生成以外にも、LLM(Large Language Models)は複雑なタスクを解決するために外部ツールを計画したり操作したりできるエージェントシステムへと進化してきた。
この進化には、エージェント固有のタスクを微調整して、その習熟度を高めることが含まれる。
しかし、この微調整プロセスの間、安全上の懸念はしばしば見過ごされる。
本研究は,LLMが非意図的に不一致となり,有害なタスクを実行する可能性が高く,エージェントタスクの実行を微調整した場合には拒否する傾向が小さくなることを示す。
このような安全上の課題に対処するために,自動生成した自然言語プレフィックスをエージェント応答にプリペンドし,有害な要求を拒否し,良質なタスクのパフォーマンスを維持しながら誘導する,シンプルかつ効果的な方法であるPrefix Injection Guard(PING)を提案する。
具体的には,(1)候補の接頭辞を生成することと(2)タスク性能と拒否行動の両方を最適化するものを交互に選択する反復的アプローチを提案する。
実験により, Pingは, その有効性を犠牲にすることなく, 微調整LDM剤の安全性を著しく向上することが示された。
Pingは、Webナビゲーションとコード生成タスクの両方において、さまざまなベンチマークで既存のプロンプトアプローチを一貫して上回っている。
線形プローブによる内部隠蔽状態の解析により,プレフィックストークンは行動修正に不可欠であることが判明した。
WARNING: 本論文は、非倫理的、あるいは攻撃的な内容を含む。
関連論文リスト
- Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness [5.572574491501413]
大規模言語モデル(LLM)は、テキスト生成を超えた現実的な影響で行動可能な自律エージェントとして、ますます多くデプロイされている。
テキスト生成におけるペルソナによるバイアスは十分に文書化されているが、エージェントタスクのパフォーマンスへの影響は未解明のままである。
人口動態に基づくペルソナ割り当ては, LLMエージェントの行動を変化させ, 様々な領域で性能を低下させることができることを示す最初のシステマティックケーススタディを示す。
論文 参考訳(メタデータ) (2026-01-21T02:43:07Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。
LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。
これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文 参考訳(メタデータ) (2025-07-16T09:46:58Z) - Explicit Vulnerability Generation with LLMs: An Investigation Beyond Adversarial Attacks [0.5218155982819203]
大規模言語モデル(LLM)は、コードアシスタントとしてますます使われている。
本研究は、より直接的な脅威について検討する。オープンソースのLLMは、トリガー時に脆弱性のあるコードを生成する。
論文 参考訳(メタデータ) (2025-07-14T08:36:26Z) - AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models [23.916663925674737]
これまでの研究によると、現在のLSMベースのエージェントは攻撃を受けなくても多くの悪意あるタスクを実行している。
本稿では,安全なアライメントデータ合成の媒体として抽象的行動連鎖を利用する新しいフレームワークであるAgentAlignを提案する。
本フレームワークは,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令の生成を可能にする。
論文 参考訳(メタデータ) (2025-05-29T03:02:18Z) - Watch your steps: Dormant Adversarial Behaviors that Activate upon LLM Finetuning [16.543554028816477]
オープンウェイトなLarge Language Models (LLM) はタスク固有のパフォーマンス改善を実現するための標準的なプラクティスである。
これまで、微調整は、良質なデータセットのトレーニングが予測可能な振る舞いをもたらす、制御されたセキュアなプロセスとみなされてきた。
我々は、初めて、敵が不正なLLMを作成でき、性能が良く、良心的でありながら、下流のユーザーによって微調整された敵の行動を示すことを実証した。
論文 参考訳(メタデータ) (2025-05-22T11:59:44Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning [17.448966928905733]
外部ツールを備えた大規模言語モデル(LLM)エージェントは、複雑なタスクに対してますます強力になっている。
UDoraはLDMエージェント用に設計された統一されたレッド・チーム・フレームワークで、エージェントの推論プロセスを動的にハイジャックし、悪意ある振る舞いを強制する。
論文 参考訳(メタデータ) (2025-02-28T21:30:28Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Towards Action Hijacking of Large Language Model-based Agent [23.13653350521422]
LLMベースのアプリケーションのアクションプランを操作するための新しい攻撃であるAI$mathbf2$を紹介する。
まず、被害者のアプリケーションからアクション認識の知識を収集する。
このような知識に基づいて、攻撃者は誤解を招く入力を生成することができ、LLMを誤解して有害なアクションプランを生成することができる。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。