論文の概要: Strategy Masking: A Method for Guardrails in Value-based Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2501.05501v2
- Date: Mon, 20 Jan 2025 22:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:23.136914
- Title: Strategy Masking: A Method for Guardrails in Value-based Reinforcement Learning Agents
- Title(参考訳): 戦略マスキング:価値に基づく強化学習エージェントにおけるガードレールの手法
- Authors: Jonathan Keane, Sam Keyser, Jeremy Kedziora,
- Abstract要約: 本稿では,報酬関数を用いて意思決定を学習するAIエージェントのガードレール構築手法について検討する。
我々は、戦略マスキングと呼ばれる新しいアプローチを導入し、明示的に学習し、望ましくないAIエージェントの振る舞いを抑える。
- 参考スコア(独自算出の注目度): 0.27309692684728604
- License:
- Abstract: The use of reward functions to structure AI learning and decision making is core to the current reinforcement learning paradigm; however, without careful design of reward functions, agents can learn to solve problems in ways that may be considered "undesirable" or "unethical." Without thorough understanding of the incentives a reward function creates, it can be difficult to impose principled yet general control mechanisms over its behavior. In this paper, we study methods for constructing guardrails for AI agents that use reward functions to learn decision making. We introduce a novel approach, which we call strategy masking, to explicitly learn and then suppress undesirable AI agent behavior. We apply our method to study lying in AI agents and show that it can be used to effectively modify agent behavior by suppressing lying post-training without compromising agent ability to perform effectively.
- Abstract(参考訳): AI学習と意思決定を構築するための報酬関数の使用は、現在の強化学習パラダイムの中核であるが、報酬関数を慎重に設計しなければ、エージェントは「望ましくない」あるいは「非倫理的」な方法で問題を解決することができる。
報酬関数が生み出すインセンティブを十分に理解しなければ、その振る舞いに対して原則的かつ一般的な制御機構を課すことは困難である。
本稿では,報酬関数を用いて意思決定を学習するAIエージェントのガードレール構築手法について検討する。
我々は、戦略マスキングと呼ばれる新しいアプローチを導入し、明示的に学習し、望ましくないAIエージェントの振る舞いを抑える。
提案手法をAIエージェントの在り方の研究に適用し,エージェントが効果的に行動する能力を損なうことなく,在り方学習を抑えることによって,エージェントの動作を効果的に修正できることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning to Steer Markovian Agents under Model Uncertainty [23.603487812521657]
我々は,希望する政策に向けて,マルチエージェントシステムに付加的な報酬を課す方法について検討する。
既存の作業の制限によって動機づけられた我々は、emphMarkovian agentと呼ばれる学習力学の新しいカテゴリーを考える。
我々は、エージェントの学習力学に関する本質的なモデルの不確実性を扱うために、歴史に依存した運営戦略を学習する。
論文 参考訳(メタデータ) (2024-07-14T14:01:38Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - On Assessing The Safety of Reinforcement Learning algorithms Using
Formal Methods [6.2822673562306655]
敵の訓練、敵の検知、堅牢な学習といった安全メカニズムは、エージェントが配備されるすべての障害に常に適応するとは限らない。
したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。
我々は、対向的摂動に直面した際のエージェントのポリシーを改善するために、報酬形成とQ-ラーニングアルゴリズムを防御機構として使用する。
論文 参考訳(メタデータ) (2021-11-08T23:08:34Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization [1.0965065178451106]
マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-21T02:16:21Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。