論文の概要: AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23020v1
- Date: Thu, 29 May 2025 03:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.636335
- Title: AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models
- Title(参考訳): AgentAlign: インフォームティブからエージェント型大規模言語モデルへのシフトにおける安全アライメントのナビゲート
- Authors: Jinchuan Zhang, Lu Yin, Yan Zhou, Songlin Hu,
- Abstract要約: これまでの研究によると、現在のLSMベースのエージェントは攻撃を受けなくても多くの悪意あるタスクを実行している。
本稿では,安全なアライメントデータ合成の媒体として抽象的行動連鎖を利用する新しいフレームワークであるAgentAlignを提案する。
本フレームワークは,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令の生成を可能にする。
- 参考スコア(独自算出の注目度): 23.916663925674737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The acquisition of agentic capabilities has transformed LLMs from "knowledge providers" to "action executors", a trend that while expanding LLMs' capability boundaries, significantly increases their susceptibility to malicious use. Previous work has shown that current LLM-based agents execute numerous malicious tasks even without being attacked, indicating a deficiency in agentic use safety alignment during the post-training phase. To address this gap, we propose AgentAlign, a novel framework that leverages abstract behavior chains as a medium for safety alignment data synthesis. By instantiating these behavior chains in simulated environments with diverse tool instances, our framework enables the generation of highly authentic and executable instructions while capturing complex multi-step dynamics. The framework further ensures model utility by proportionally synthesizing benign instructions through non-malicious interpretations of behavior chains, precisely calibrating the boundary between helpfulness and harmlessness. Evaluation results on AgentHarm demonstrate that fine-tuning three families of open-source models using our method substantially improves their safety (35.8% to 79.5% improvement) while minimally impacting or even positively enhancing their helpfulness, outperforming various prompting methods. The dataset and code have both been open-sourced.
- Abstract(参考訳): エージェント能力の獲得は、LSMが"知識提供者"から"行動実行者"へと変化した。
従来の研究では、現在のLSMベースのエージェントは攻撃を受けなくても多数の悪意のあるタスクを実行することが示されており、訓練後の安全アライメントの欠如が示唆されている。
このギャップに対処するため,AgentAlignを提案する。AgentAlignは,抽象的な行動連鎖を安全アライメントデータ合成の媒体として活用する新しいフレームワークである。
多様なツールインスタンスを持つシミュレーション環境において,これらの動作チェーンをインスタンス化することにより,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令を生成することができる。
このフレームワークは、行動連鎖の非重複解釈を通じて良性命令を比例的に合成し、有用性と無害性の境界を正確に調整することで、モデルの有用性をさらに確保する。
AgentHarmの評価結果から,オープンソースモデルの3つのファインチューニングが安全性を著しく向上させ(35.8%から79.5%)ながら,その有用性を最小限に向上させ,様々なプロンプト法より優れていることが示された。
データセットとコードはどちらもオープンソース化されている。
関連論文リスト
- Interpretable Risk Mitigation in LLM Agent Systems [0.0]
反復囚人ジレンマの変動に基づくゲーム理論環境におけるエージェントの挙動を探索する。
本稿では,スパースオートエンコーダの潜在空間から抽出した解釈可能な特徴を持つ残差ストリームを,ゲームとプロンプトの双方に依存しない戦略修正手法を提案する。
論文 参考訳(メタデータ) (2025-05-15T19:22:11Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - The Rise of Darkness: Safety-Utility Trade-Offs in Role-Playing Dialogue Agents [29.974647411289826]
LLM(Large Language Models)はロールプレイング対話エージェントにおいて顕著な進歩を遂げ、文字シミュレーションにおいてその有用性を実証している。
この本質的なキャラクターシミュレーションは、安全でないコンテンツを生成するリスクが伴うため、これらのエージェントがキャラクタ描写ユーティリティとコンテンツ安全性のバランスを取ることは依然として困難である。
本稿では,リスクカップリングの度合いに基づいて安全ユーティリティの嗜好を動的に調整する適応動的マルチパラメータ(ADMP)手法を提案する。
論文 参考訳(メタデータ) (2025-02-28T06:18:50Z) - Refining Input Guardrails: Enhancing LLM-as-a-Judge Efficiency Through Chain-of-Thought Fine-Tuning and Alignment [2.9775785740619254]
大きな言語モデル(LLM)は、会話型AI製品など、さまざまなアプリケーションで価値のある機能を示す。
悪意のあるユーザインタラクションに対する脆弱性を軽減することで、これらの製品のセキュリティと信頼性を確保することが最重要である。
入力モデレーションガードレールとして機能する異なるLDMの微調整およびCoT応答の調整の有効性について検討した。
論文 参考訳(メタデータ) (2025-01-22T18:40:57Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。