論文の概要: Social Interpretable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.15480v2
- Date: Tue, 21 Jan 2025 18:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:19.612099
- Title: Social Interpretable Reinforcement Learning
- Title(参考訳): 社会的解釈可能な強化学習
- Authors: Leonardo Lucio Custode, Giovanni Iacca,
- Abstract要約: ソーシャル・インタープリタブル・RL (Social Interpretable RL) は、トレーニングに必要なエピソードの数を大幅に減らすことができる。
その結果、SIRLは計算コストを最小43%から最大76%に削減するだけでなく、収束速度も向上し、解の質も向上することがわかった。
- 参考スコア(独自算出の注目度): 3.591122855617648
- License:
- Abstract: Reinforcement Learning (RL) bears the promise of being a game-changer in many applications. However, since most of the literature in the field is currently focused on opaque models, the use of RL in high-stakes scenarios, where interpretability is crucial, is still limited. Recently, some approaches to interpretable RL, e.g., based on Decision Trees, have been proposed, but one of the main limitations of these techniques is their training cost. To overcome this limitation, we propose a new method, called Social Interpretable RL (SIRL), that can substantially reduce the number of episodes needed for training. Our method mimics a social learning process, where each agent in a group learns to solve a given task based both on its own individual experience as well as the experience acquired together with its peers. Our approach is divided into the following two phases. (1) In the collaborative phase, all the agents in the population interact with a shared instance of the environment, where each agent observes the state and independently proposes an action. Then, voting is performed to choose the action that will actually be deployed in the environment. (2) In the individual phase, then, each agent refines its individual performance by interacting with its own instance of the environment. This mechanism makes the agents experience a larger number of episodes with little impact on the computational cost of the process. Our results (on 6 widely-known RL benchmarks) show that SIRL not only reduces the computational cost by a factor varying from a minimum of 43% to a maximum 76%, but it also increases the convergence speed and, often, improves the quality of the solutions.
- Abstract(参考訳): 強化学習(RL)は多くのアプリケーションでゲームチェンジャーになることを約束している。
しかし、この分野の文献の多くは、現在不透明なモデルに焦点が当てられているため、解釈可能性が非常に重要であるハイテイクシナリオにおけるRLの使用は制限されている。
近年、決定木に基づく解釈可能なRL、例えば、いくつかの手法が提案されているが、これらの手法の主な制限の1つは、トレーニングコストである。
この制限を克服するために,SIRL(Social Interpretable RL)と呼ばれる新たな手法を提案する。
本手法は,グループ内の各エージェントが,自身の経験と仲間と一緒に獲得した経験の両方に基づいて,与えられた課題を解くことを学習する,社会的学習過程を模倣する。
我々のアプローチは以下の2つの段階に分けられる。
1) 協力的な段階においては,集団内のすべてのエージェントが環境の共有インスタンスと相互作用し,各エージェントが状態を観察し,独立して行動を提案する。
そして、実際に環境にデプロイされるアクションを選択するために投票が行われる。
2) 個別のフェーズでは,各エージェントが環境のインスタンスと相互作用して個々のパフォーマンスを向上する。
このメカニズムにより、エージェントはプロセスの計算コストにほとんど影響を与えず、より多くのエピソードを経験することができる。
その結果、SIRLは最小43%から最大76%までの計算コストを削減できるだけでなく、収束速度も向上し、解の質も向上することがわかった。
関連論文リスト
- Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning [0.2538209532048867]
本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
論文 参考訳(メタデータ) (2020-03-29T17:42:00Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。