論文の概要: Social Interpretable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.15480v1
- Date: Sat, 27 Jan 2024 19:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:01:20.063598
- Title: Social Interpretable Reinforcement Learning
- Title(参考訳): 社会的解釈可能な強化学習
- Authors: Leonardo Lucio Custode, Giovanni Iacca
- Abstract要約: SIRL(Social Interpretable RL)は、学習効率を向上させるための社会学習原則に着想を得たものである。
6つのよく知られたベンチマークの結果から、SIRLは最先端の性能に達することが示された。
- 参考スコア(独自算出の注目度): 4.242435932138821
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) bears the promise of being an enabling technology
for many applications. However, since most of the literature in the field is
currently focused on opaque models, the use of RL in high-stakes scenarios,
where interpretability is crucial, is still limited. Recently, some approaches
to interpretable RL, e.g., based on Decision Trees, have been proposed, but one
of the main limitations of these techniques is their training cost. To overcome
this limitation, we propose a new population-based method, called Social
Interpretable RL (SIRL), inspired by social learning principles, to improve
learning efficiency. Our method mimics a social learning process, where each
agent in a group learns to solve a given task based both on its own individual
experience as well as the experience acquired together with its peers. Our
approach is divided into two phases. In the \emph{collaborative phase}, all the
agents in the population interact with a shared instance of the environment,
where each agent observes the state and independently proposes an action. Then,
voting is performed to choose the action that will actually be performed in the
environment. In the \emph{individual phase}, each agent refines its individual
performance by interacting with its own instance of the environment. This
mechanism makes the agents experience a larger number of episodes while
simultaneously reducing the computational cost of the process. Our results on
six well-known benchmarks show that SIRL reaches state-of-the-art performance
w.r.t. the alternative interpretable methods from the literature.
- Abstract(参考訳): 強化学習(RL)は多くのアプリケーションで実現可能な技術であることを約束している。
しかし、この分野の文献の多くは、現在不透明なモデルに焦点が当てられているため、解釈可能性が非常に重要であるハイテイクシナリオにおけるRLの使用は制限されている。
近年、例えば決定木に基づく解釈可能なRLに対するいくつかのアプローチが提案されているが、これらの手法の主な制限の1つはトレーニングコストである。
この制限を克服するために,社会学習の原則に触発された社会解釈RL (Social Interpretable RL) と呼ばれる新しい集団ベースの手法を提案する。
本手法は,グループ内の各エージェントが,自身の経験と仲間と一緒に獲得した経験の両方に基づいて,与えられた課題を解くことを学習する社会的学習過程を模倣する。
我々のアプローチは2つのフェーズに分かれている。
emph{collaborative phase} では、集団内のすべてのエージェントが環境の共有インスタンスと相互作用し、それぞれのエージェントが状態を観察し、独立してアクションを提案する。
次に、実際に環境で実行されるアクションを選択するために投票を行う。
emph{individual phase} では、各エージェントは環境のインスタンスと相互作用することで個々のパフォーマンスを洗練させる。
この機構により、エージェントはより多くのエピソードを経験し、同時にプロセスの計算コストを削減できる。
6つのよく知られたベンチマークの結果から、SIRLは文献の代替解釈可能な手法として最先端の性能に達することが示されている。
関連論文リスト
- Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations [15.549340968605234]
フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。
異種環境におけるエージェント間の共通構造を生かし, 共生型FedRLフレームワーク(PFedRL)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:42:43Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - Group-Agent Reinforcement Learning [12.915860504511523]
複数の地理的に分散したエージェントがそれぞれのRLタスクを協調的に実行すれば、各エージェントの強化学習プロセスに大きく貢献できる。
グループエージェント強化学習(GARL)のための分散RLフレームワークDDAL(Decentralized Distributed Asynchronous Learning)を提案する。
論文 参考訳(メタデータ) (2022-02-10T16:40:59Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。