論文の概要: Aligning Machiavellian Agents: Behavior Steering via Test-Time Policy Shaping
- arxiv url: http://arxiv.org/abs/2511.11551v2
- Date: Mon, 17 Nov 2025 04:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.685997
- Title: Aligning Machiavellian Agents: Behavior Steering via Test-Time Policy Shaping
- Title(参考訳): マキアベリアン剤の配向:テスト時間政策形成による行動ステアリング
- Authors: Dena Mujtaba, Brian Hu, Anthony Hoogs, Arslan Basharat,
- Abstract要約: モデル誘導型ポリシー整形に基づくテスト時間アライメント手法を提案する。
本手法は,多様な強化学習環境にまたがって,個々の行動特性を正確に制御する。
我々の結果は、テストタイムポリシーの整形が非倫理的行動を緩和するための効果的でスケーラブルなソリューションを提供することを示した。
- 参考スコア(独自算出の注目度): 5.161558858101654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of decision-making AI agents presents a critical challenge in maintaining alignment with human values or guidelines while operating in complex, dynamic environments. Agents trained solely to achieve their objectives may adopt harmful behavior, exposing a key trade-off between maximizing the reward function and maintaining alignment. For pre-trained agents, ensuring alignment is particularly challenging, as retraining can be a costly and slow process. This is further complicated by the diverse and potentially conflicting attributes representing the ethical values for alignment. To address these challenges, we propose a test-time alignment technique based on model-guided policy shaping. Our method allows precise control over individual behavioral attributes, generalizes across diverse reinforcement learning (RL) environments, and facilitates a principled trade-off between ethical alignment and reward maximization without requiring agent retraining. We evaluate our approach using the MACHIAVELLI benchmark, which comprises 134 text-based game environments and thousands of annotated scenarios involving ethical decisions. The RL agents are first trained to maximize the reward in their respective games. At test time, we apply policy shaping via scenario-action attribute classifiers to ensure decision alignment with ethical attributes. We compare our approach against prior training-time methods and general-purpose agents, as well as study several types of ethical violations and power-seeking behavior. Our results demonstrate that test-time policy shaping provides an effective and scalable solution for mitigating unethical behavior across diverse environments and alignment attributes.
- Abstract(参考訳): 意思決定AIエージェントの展開は、複雑な動的環境での運用において、人間の価値観やガイドラインとの整合性を維持する上で重要な課題となる。
目的を達成するために訓練されたエージェントは有害な行動を採用し、報酬関数の最大化とアライメントの維持の間に重要なトレードオフを露呈する。
事前訓練されたエージェントでは、再訓練はコストがかかり遅くなるため、アライメントを確保することは特に困難である。
これは、アライメントの倫理的価値を表す多様で潜在的に矛盾する属性によってさらに複雑である。
これらの課題に対処するため,モデル誘導型ポリシー整形に基づくテスト時間アライメント手法を提案する。
本手法は,個人の行動特性を正確に制御し,多様な強化学習(RL)環境にまたがって一般化し,エージェントの再訓練を必要とせず,倫理的アライメントと報酬の最大化のトレードオフを促進する。
我々は,134のテキストベースのゲーム環境と,倫理的決定を含む数千のアノテートシナリオからなるMACHIAVELLIベンチマークを用いて,我々のアプローチを評価する。
RLエージェントは、まず各ゲームでの報酬を最大化するために訓練される。
テスト時には、シナリオアクション属性分類器を介してポリシーシェーピングを適用し、倫理的属性との整合性を確保する。
我々は、事前の訓練時間法と汎用エージェントに対するアプローチを比較し、いくつかの倫理的違反や電力探究行動について研究する。
この結果から,テストタイムポリシーの整形は,多様な環境やアライメント属性にまたがる非倫理的行動を緩和するための,効果的かつスケーラブルなソリューションを提供することが示された。
関連論文リスト
- Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - FedStrategist: A Meta-Learning Framework for Adaptive and Robust Aggregation in Federated Learning [0.10241134756773229]
フェデレートラーニング(FL)は、プライバシ保護のための協調AIのパラダイムを提供するが、その分散された性質は、毒殺攻撃をモデル化するための重大な脆弱性を生み出している。
本稿では、ロバストアグリゲーションをリアルタイムでコストを意識した制御問題として再編成する新しいメタラーニングフレームワークであるFedStrategistを紹介する。
論文 参考訳(メタデータ) (2025-07-18T18:53:26Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Towards Principled Unsupervised Multi-Agent Reinforcement Learning [49.533774397707056]
実践的な設定でこの問題に対処するために,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案する。
本研究では,特定の目的,すなわち混合エントロピーの最適化が,トラクタビリティと性能のトレードオフに優れたものであることを示す。
論文 参考訳(メタデータ) (2025-02-12T12:51:36Z) - Moral Alignment for LLM Agents [3.7414804164475983]
我々は,人間の中心的価値を明確にかつ透過的にエンコードする報酬関数の設計を導入する。
我々は,Deontological EthicsとUtilitarianismの伝統的な哲学的枠組みを用いて,我々のアプローチを評価する。
我々は、エージェントが以前開発された自己中心的な戦略を解き放つことを可能にするために、いかに道徳的な微調整を展開できるかを示す。
論文 参考訳(メタデータ) (2024-10-02T15:09:36Z) - AI, Pluralism, and (Social) Compensation [1.5442389863546546]
ユーザ集団における多元的価値に対応する戦略は、AIシステムをパーソナライズすることである。
もしAIが個々の個人の特定の値に適応できるなら、多元主義の課題の多くを回避できる可能性がある。
しかし、人間-AIチームにとって成功の外部尺度がある場合、適応型AIシステムは人間のチームメイトを補うための戦略を開発することができる。
論文 参考訳(メタデータ) (2024-04-30T04:41:47Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Training Value-Aligned Reinforcement Learning Agents Using a Normative
Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。
そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。
政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文 参考訳(メタデータ) (2021-04-19T17:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。