論文の概要: Measuring Interventional Robustness in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.09058v1
- Date: Mon, 19 Sep 2022 14:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:33:36.938961
- Title: Measuring Interventional Robustness in Reinforcement Learning
- Title(参考訳): 強化学習におけるインターベンショナルロバストネスの測定
- Authors: Katherine Avery, Jack Kenney, Pracheta Amaranath, Erica Cai, David
Jensen
- Abstract要約: 介入堅牢性(英語: interventional robustness、IR)とは、訓練手順の付随的な側面によって学習方針にどの程度のばらつきが導入されたかを示す尺度である。
数十の介入と状態にわたる3つのAtari環境における8つのアルゴリズムのIRを計算する。
これらの実験から、IRはトレーニング量やアルゴリズムの種類によって異なり、高い性能は期待されるような高いIRを含まないことが判明した。
- 参考スコア(独自算出の注目度): 3.4998703934432682
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent work in reinforcement learning has focused on several characteristics
of learned policies that go beyond maximizing reward. These properties include
fairness, explainability, generalization, and robustness. In this paper, we
define interventional robustness (IR), a measure of how much variability is
introduced into learned policies by incidental aspects of the training
procedure, such as the order of training data or the particular exploratory
actions taken by agents. A training procedure has high IR when the agents it
produces take very similar actions under intervention, despite variation in
these incidental aspects of the training procedure. We develop an intuitive,
quantitative measure of IR and calculate it for eight algorithms in three Atari
environments across dozens of interventions and states. From these experiments,
we find that IR varies with the amount of training and type of algorithm and
that high performance does not imply high IR, as one might expect.
- Abstract(参考訳): 近年の強化学習の研究は、報酬の最大化を超えて学習方針のいくつかの特徴に焦点を当てている。
これらの性質には、公正性、説明可能性、一般化、堅牢性が含まれる。
本稿では,訓練データの順序やエージェントが行う特定の探索行動など,訓練手順の付随的な側面によって,学習方針にどの程度のばらつきがもたらされるか,という介入堅牢性(IR)を定義した。
トレーニング手順は、トレーニング手順のこれらの偶発的な側面にばらつきがあるにもかかわらず、エージェントが介入の下で非常によく似たアクションをとるとき、高いIRを有する。
我々は直感的で定量的なIR尺度を開発し、数十の介入と状態にわたる3つのアタリ環境で8つのアルゴリズムで計算する。
これらの実験から、IRはトレーニング量やアルゴリズムの種類によって異なり、高い性能は期待されるような高いIRを示唆しないことがわかった。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z) - Behavior-Guided Actor-Critic: Improving Exploration via Learning Policy
Behavior Representation for Deep Reinforcement Learning [0.0]
行動誘導アクタークリティカル(BAC)を非政治アクタークリティカル深部RLアルゴリズムとして提案する。
BACは、オートエンコーダを介してポリシーの挙動を数学的に定式化する。
その結果,いくつかの最先端学習アルゴリズムと比較して,BACの性能は有意に向上した。
論文 参考訳(メタデータ) (2021-04-09T15:22:35Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。