論文の概要: AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents
- arxiv url: http://arxiv.org/abs/2506.04018v1
- Date: Wed, 04 Jun 2025 14:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.388254
- Title: AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents
- Title(参考訳): エージェントミスアライメント:LSM系エージェントにおけるミスアライメント行動の妥当性の測定
- Authors: Akshat Naik, Patrick Quinn, Guillermo Bosch, Emma Gouné, Francisco Javier Campos Zabala, Jason Ross Brown, Edward James Young,
- Abstract要約: 本稿では,現実的なシナリオの集合からなる不整合性評価ベンチマークであるAgentMisalignmentを紹介する。
評価を,ゴールガード,シャットダウン抵抗,サンドバッグ,パワーセーキングなど,不整合行動のサブカテゴリに整理する。
本ベンチマークでは,より有能なモデルを評価する際に,平均的な不一致を観測し,フロンティアモデルの性能を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Model (LLM) agents become more widespread, associated misalignment risks increase. Prior work has examined agents' ability to enact misaligned behaviour (misalignment capability) and their compliance with harmful instructions (misuse propensity). However, the likelihood of agents attempting misaligned behaviours in real-world settings (misalignment propensity) remains poorly understood. We introduce a misalignment propensity benchmark, AgentMisalignment, consisting of a suite of realistic scenarios in which LLM agents have the opportunity to display misaligned behaviour. We organise our evaluations into subcategories of misaligned behaviours, including goal-guarding, resisting shutdown, sandbagging, and power-seeking. We report the performance of frontier models on our benchmark, observing higher misalignment on average when evaluating more capable models. Finally, we systematically vary agent personalities through different system prompts. We find that persona characteristics can dramatically and unpredictably influence misalignment tendencies -- occasionally far more than the choice of model itself -- highlighting the importance of careful system prompt engineering for deployed AI agents. Our work highlights the failure of current alignment methods to generalise to LLM agents, and underscores the need for further propensity evaluations as autonomous systems become more prevalent.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントがより広く普及するにつれて、関連するミスアライメントリスクが増加する。
先行研究は、ミスアライメント能力(misalignment ability)と有害な指示(misuse propensity)を遵守するエージェントの能力を調べてきた。
しかし, 現実の環境において, エージェントが不整合行動を試みている可能性(相違性)はいまだによく分かっていない。
我々は,LLMエージェントが不整合行動を示す機会を持つ,現実的なシナリオの集合からなる,不整合性評価指標であるAgenMisalignmentを導入する。
評価を,ゴールガード,シャットダウン抵抗,サンドバッグ,パワーセーキングなど,不整合行動のサブカテゴリに整理する。
本ベンチマークでは,より有能なモデルを評価する際に,平均的な不一致を観測し,フロンティアモデルの性能を報告する。
最後に,エージェント・パーソナリティを異なるシステム・プロンプトによって体系的に変化させる。
ペルソナの特徴は、配置されたAIエージェントに対する慎重なシステムプロンプトエンジニアリングの重要性を浮き彫りにして、不整合傾向(時にはモデル自体の選択よりもはるかに多い)に劇的に、予測不能に影響を及ぼす可能性があることに気付きました。
我々の研究は、LLMエージェントに一般化するための現在のアライメント手法の失敗を強調し、自律システムがより普及するにつれて、さらなる妥当性評価の必要性を浮き彫りにしている。
関連論文リスト
- MAEBE: Multi-Agent Emergent Behavior Framework [0.0]
本稿では,このようなリスクを評価するための多エージェント行動評価フレームワークを提案する。
我々の研究結果は、インタラクティブでマルチエージェントなコンテキストにおいて、AIシステムを評価する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-06-03T16:33:47Z) - AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models [23.916663925674737]
これまでの研究によると、現在のLSMベースのエージェントは攻撃を受けなくても多くの悪意あるタスクを実行している。
本稿では,安全なアライメントデータ合成の媒体として抽象的行動連鎖を利用する新しいフレームワークであるAgentAlignを提案する。
本フレームワークは,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令の生成を可能にする。
論文 参考訳(メタデータ) (2025-05-29T03:02:18Z) - Interpretable Risk Mitigation in LLM Agent Systems [0.0]
反復囚人ジレンマの変動に基づくゲーム理論環境におけるエージェントの挙動を探索する。
本稿では,スパースオートエンコーダの潜在空間から抽出した解釈可能な特徴を持つ残差ストリームを,ゲームとプロンプトの双方に依存しない戦略修正手法を提案する。
論文 参考訳(メタデータ) (2025-05-15T19:22:11Z) - AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。
オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。
本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-03T08:55:19Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:57:42Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。