論文の概要: Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction
- arxiv url: http://arxiv.org/abs/2505.11063v2
- Date: Mon, 19 May 2025 06:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.188871
- Title: Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction
- Title(参考訳): 行為の2倍:思考訂正によるエージェントの行動安全の強化
- Authors: Changyue Jiang, Xudong Pan, Min Yang,
- Abstract要約: 内部推論プロセスは、ツールの使用とその後のアクションに大きな影響を与えます。
エージェントの思考における小さな偏差は、カスケード効果を誘発し、不可逆的な安全事故を引き起こす可能性がある。
Thought-Alignerはアクションを実行する前に、各ハイリスクな思考を即時に修正する。
修正された思考はエージェントに再導入され、より安全な後続の判断とツールの相互作用が保証される。
- 参考スコア(独自算出の注目度): 20.7755316818041
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM-based autonomous agents possess capabilities such as reasoning, tool invocation, and environment interaction, enabling the execution of complex multi-step tasks. The internal reasoning process, i.e., thought, of behavioral trajectory significantly influences tool usage and subsequent actions but can introduce potential risks. Even minor deviations in the agent's thought may trigger cascading effects leading to irreversible safety incidents. To address the safety alignment challenges in long-horizon behavioral trajectories, we propose Thought-Aligner, a plug-in dynamic thought correction module. Utilizing a lightweight and resource-efficient model, Thought-Aligner corrects each high-risk thought on the fly before each action execution. The corrected thought is then reintroduced to the agent, ensuring safer subsequent decisions and tool interactions. Importantly, Thought-Aligner modifies only the reasoning phase without altering the underlying agent framework, making it easy to deploy and widely applicable to various agent frameworks. To train the Thought-Aligner model, we construct an instruction dataset across ten representative scenarios and simulate ReAct execution trajectories, generating 5,000 diverse instructions and more than 11,400 safe and unsafe thought pairs. The model is fine-tuned using contrastive learning techniques. Experiments across three agent safety benchmarks involving 12 different LLMs demonstrate that Thought-Aligner raises agent behavioral safety from approximately 50% in the unprotected setting to 90% on average. Additionally, Thought-Aligner maintains response latency below 100ms with minimal resource usage, demonstrating its capability for efficient deployment, broad applicability, and timely responsiveness. This method thus provides a practical dynamic safety solution for the LLM-based agents.
- Abstract(参考訳): LLMベースの自律エージェントは、推論、ツール呼び出し、環境相互作用といった機能を備えており、複雑なマルチステップタスクの実行を可能にする。
行動軌跡の内的推論過程、すなわち思考は道具の使用とその後の行動に大きな影響を及ぼすが、潜在的なリスクをもたらす可能性がある。
エージェントの思考の微妙な偏差でさえ、カスケード効果を誘発し、不可逆的な安全事故を引き起こす可能性がある。
長距離行動軌道における安全アライメントの課題に対処するため,プラグイン動的思考修正モジュールであるThought-Alignerを提案する。
軽量でリソース効率のよいモデルを利用することで、Thought-Alignerはアクションを実行する前に、各ハイリスクな思考を即時に修正する。
修正された思考はエージェントに再導入され、より安全な後続の判断とツールの相互作用が保証される。
重要な点として、Thought-Alignerは、基礎となるエージェントフレームワークを変更することなく推論フェーズだけを変更し、デプロイが容易で、さまざまなエージェントフレームワークに広く適用できるようにする。
そこで我々は,Thought-Alignerモデルをトレーニングするために,10の代表的なシナリオにまたがる命令データセットを構築し,ReActの実行軌跡をシミュレートし,5,000の多様な命令と11,400以上の安全で安全でない思考ペアを生成する。
モデルは、対照的な学習技術を用いて微調整される。
12種類のLDMを含む3つのエージェント安全性ベンチマーク実験により、Thought-Alignerはエージェントの行動安全を、保護されていない環境で約50%から平均90%に引き上げることを示した。
さらに、Thought-Alignerは100ms未満のレスポンスレイテンシを最小限のリソース使用量で維持し、効率的なデプロイメント、広範な適用性、タイムリーな応答性を示す。
この方法は, LLMをベースとしたエージェントに対して, 実用的な動的安全ソリューションを提供する。
関連論文リスト
- AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents [8.290987399121343]
LLMエージェントのランタイム制約を指定・強制するための軽量言語であるAgentSpecを提案する。
AgentSpecでは、トリガー、述語、執行機構を含む構造化ルールを定義する。
コード実行、エンボディエージェント、自律運転など、複数のドメインにまたがるAgentSpecを実装しています。
論文 参考訳(メタデータ) (2025-03-24T13:31:48Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
既存のベンチマークは主に重要な安全リスクを見落とし、パフォーマンスの計画に集中しています。
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを提案する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な、多種多様で高品質なデータセット、(2)低レベルコントローラを備えた普遍的な実施環境であるSafeAgentEnvは、8つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートし、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法である。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。