Fugu-MT 論文翻訳(概要): Social Interpretable Reinforcement Learning

論文の概要: Social Interpretable Reinforcement Learning

arxiv url: http://arxiv.org/abs/2401.15480v1
Date: Sat, 27 Jan 2024 19:05:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 18:01:20.063598
Title: Social Interpretable Reinforcement Learning
Title（参考訳）: 社会的解釈可能な強化学習
Authors: Leonardo Lucio Custode, Giovanni Iacca
Abstract要約: SIRL(Social Interpretable RL)は、学習効率を向上させるための社会学習原則に着想を得たものである。 6つのよく知られたベンチマークの結果から、SIRLは最先端の性能に達することが示された。
参考スコア（独自算出の注目度）: 4.242435932138821
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reinforcement Learning (RL) bears the promise of being an enabling technology for many applications. However, since most of the literature in the field is currently focused on opaque models, the use of RL in high-stakes scenarios, where interpretability is crucial, is still limited. Recently, some approaches to interpretable RL, e.g., based on Decision Trees, have been proposed, but one of the main limitations of these techniques is their training cost. To overcome this limitation, we propose a new population-based method, called Social Interpretable RL (SIRL), inspired by social learning principles, to improve learning efficiency. Our method mimics a social learning process, where each agent in a group learns to solve a given task based both on its own individual experience as well as the experience acquired together with its peers. Our approach is divided into two phases. In the \emph{collaborative phase}, all the agents in the population interact with a shared instance of the environment, where each agent observes the state and independently proposes an action. Then, voting is performed to choose the action that will actually be performed in the environment. In the \emph{individual phase}, each agent refines its individual performance by interacting with its own instance of the environment. This mechanism makes the agents experience a larger number of episodes while simultaneously reducing the computational cost of the process. Our results on six well-known benchmarks show that SIRL reaches state-of-the-art performance w.r.t. the alternative interpretable methods from the literature.
Abstract（参考訳）: 強化学習(RL)は多くのアプリケーションで実現可能な技術であることを約束している。しかし、この分野の文献の多くは、現在不透明なモデルに焦点が当てられているため、解釈可能性が非常に重要であるハイテイクシナリオにおけるRLの使用は制限されている。近年、例えば決定木に基づく解釈可能なRLに対するいくつかのアプローチが提案されているが、これらの手法の主な制限の1つはトレーニングコストである。この制限を克服するために,社会学習の原則に触発された社会解釈RL (Social Interpretable RL) と呼ばれる新しい集団ベースの手法を提案する。本手法は,グループ内の各エージェントが,自身の経験と仲間と一緒に獲得した経験の両方に基づいて,与えられた課題を解くことを学習する社会的学習過程を模倣する。我々のアプローチは2つのフェーズに分かれている。 emph{collaborative phase} では、集団内のすべてのエージェントが環境の共有インスタンスと相互作用し、それぞれのエージェントが状態を観察し、独立してアクションを提案する。次に、実際に環境で実行されるアクションを選択するために投票を行う。 emph{individual phase} では、各エージェントは環境のインスタンスと相互作用することで個々のパフォーマンスを洗練させる。この機構により、エージェントはより多くのエピソードを経験し、同時にプロセスの計算コストを削減できる。 6つのよく知られたベンチマークの結果から、SIRLは文献の代替解釈可能な手法として最先端の性能に達することが示されている。

関連論文リスト

Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。 LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文参考訳（メタデータ） (2025-05-21T09:35:43Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations [15.549340968605234]
フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。異種環境におけるエージェント間の共通構造を生かし, 共生型FedRLフレームワーク(PFedRL)を導入する。
論文参考訳（メタデータ） (2024-11-22T15:42:43Z)
Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文参考訳（メタデータ） (2023-05-17T04:31:36Z)
ACE: Cooperative Multi-agent Q-learning with Bidirectional Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。 ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文参考訳（メタデータ） (2022-11-29T10:22:55Z)
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文参考訳（メタデータ） (2022-05-11T00:06:29Z)
Group-Agent Reinforcement Learning [12.915860504511523]
複数の地理的に分散したエージェントがそれぞれのRLタスクを協調的に実行すれば、各エージェントの強化学習プロセスに大きく貢献できる。グループエージェント強化学習(GARL)のための分散RLフレームワークDDAL(Decentralized Distributed Asynchronous Learning)を提案する。
論文参考訳（メタデータ） (2022-02-10T16:40:59Z)
Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文参考訳（メタデータ） (2022-01-31T12:32:11Z)
Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。 RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文参考訳（メタデータ） (2021-12-17T16:28:06Z)
Collective eXplainable AI: Explaining Cooperative Strategies and Agent Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2021-10-04T10:28:57Z)
Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。 VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文参考訳（メタデータ） (2021-07-27T16:39:45Z)
Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。この利点を実用的に活用できるメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-30T12:02:14Z)
Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文参考訳（メタデータ） (2021-03-04T18:44:03Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning [0.2538209532048867]
本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。 PAT,学生モード,自己学習モードの2つの動作モードを設計する。エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
論文参考訳（メタデータ） (2020-03-29T17:42:00Z)
Human AI interaction loop training: New approach for interactive reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。 RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文参考訳（メタデータ） (2020-03-09T15:27:48Z)
On the interaction between supervision and self-play in emergent communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文参考訳（メタデータ） (2020-02-04T02:35:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。