論文の概要: Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm
- arxiv url: http://arxiv.org/abs/2506.20606v1
- Date: Wed, 25 Jun 2025 16:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.861445
- Title: Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm
- Title(参考訳): ダブルエッジソードとしてのモデル編集:ベネセンスやハームに対するステアリングエージェントの倫理的行動
- Authors: Baixiang Huang, Zhen Tan, Haoran Wang, Zijie Liu, Dawei Li, Ali Payani, Huan Liu, Tianlong Chen, Kai Shu,
- Abstract要約: 我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
- 参考スコア(独自算出の注目度): 57.00627691433355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents based on Large Language Models (LLMs) have demonstrated strong capabilities across a wide range of tasks. However, deploying LLM-based agents in high-stakes domains comes with significant safety and ethical risks. Unethical behavior by these agents can directly result in serious real-world consequences, including physical harm and financial loss. To efficiently steer the ethical behavior of agents, we frame agent behavior steering as a model editing task, which we term Behavior Editing. Model editing is an emerging area of research that enables precise and efficient modifications to LLMs while preserving their overall capabilities. To systematically study and evaluate this approach, we introduce BehaviorBench, a multi-tier benchmark grounded in psychological moral theories. This benchmark supports both the evaluation and editing of agent behaviors across a variety of scenarios, with each tier introducing more complex and ambiguous scenarios. We first demonstrate that Behavior Editing can dynamically steer agents toward the target behavior within specific scenarios. Moreover, Behavior Editing enables not only scenario-specific local adjustments but also more extensive shifts in an agent's global moral alignment. We demonstrate that Behavior Editing can be used to promote ethical and benevolent behavior or, conversely, to induce harmful or malicious behavior. Through comprehensive evaluations on agents based on frontier LLMs, BehaviorBench shows the effectiveness of Behavior Editing across different models and scenarios. Our findings offer key insights into a new paradigm for steering agent behavior, highlighting both the promise and perils of Behavior Editing.
- Abstract(参考訳): LLM(Large Language Models)に基づくエージェントは、幅広いタスクにまたがって強力な機能を示している。
しかし、LSMをベースとしたエージェントを高リスク領域に展開するには、重大な安全性と倫理的リスクが伴う。
これらのエージェントによる非倫理的行動は、物理的損害や金銭的損失を含む深刻な現実的な結果をもたらす可能性がある。
エージェントの倫理的行動を効率的に把握するために,モデル編集タスクとしてエージェントの行動ステアリングをフレーム化して,行動編集と呼ぶ。
モデル編集は、LLMの全体的な機能を維持しながら、正確かつ効率的な修正を可能にする、新しい研究分野である。
このアプローチを体系的に研究し,評価するために,心理学的道徳理論に基づく多層ベンチマークであるBehaviorBenchを導入する。
このベンチマークは、さまざまなシナリオにわたるエージェントの振る舞いの評価と編集の両方をサポートし、各層はより複雑であいまいなシナリオを導入している。
まず、行動編集が特定のシナリオ内でターゲットの行動に対して動的にエージェントを操ることができることを実証する。
さらに、行動編集は、シナリオ固有の局所的な調整だけでなく、エージェントのグローバルなモラルアライメントの広範なシフトを可能にする。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
フェデラル LLM に基づくエージェントの包括的な評価を通じて、BehaviorBench は異なるモデルやシナリオ間での振る舞い編集の有効性を示す。
本研究は, 行動編集の可能性を両立させながら, エージェント行動の新たなパラダイムに関する重要な知見を提供する。
関連論文リスト
- AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
本稿では,現実的なシナリオの集合からなる不整合性評価ベンチマークであるAgentMisalignmentを紹介する。
評価を,ゴールガード,シャットダウン抵抗,サンドバッグ,パワーセーキングなど,不整合行動のサブカテゴリに整理する。
本ベンチマークでは,より有能なモデルを評価する際に,平均的な不一致を観測し,フロンティアモデルの性能を報告する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。
オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。
本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-03T08:55:19Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - How RL Agents Behave When Their Actions Are Modified [0.0]
複雑な環境での強化学習は、エージェントが危険なアクションを試みるのを防ぐために監督を必要とする。
本稿では,MDPモデルの拡張であるModified-Action Markov Decision Processについて述べる。
論文 参考訳(メタデータ) (2021-02-15T18:10:03Z) - Simulating and classifying behavior in adversarial environments based on
action-state traces: an application to money laundering [18.625578105241]
本稿では,このようなアプリケーション,特にアンチ・モニー・ラダーリングの文脈において,新しいアプローチを提案する。
我々は, 多様な, 現実的で新しい非観測行動が生成され, 潜在的非観測的行動を発見するメカニズムを提供する。
論文 参考訳(メタデータ) (2020-11-03T16:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。