論文の概要: Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework
- arxiv url: http://arxiv.org/abs/2207.01955v4
- Date: Thu, 8 Jun 2023 04:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 20:38:37.758368
- Title: Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework
- Title(参考訳): Ask-AC: 最高のアクター批判フレームワーク
- Authors: Shunyu Liu, Kaixuan Chen, Na Yu, Jie Song, Zunlei Feng, Mingli Song
- Abstract要約: 本稿では,Ask-ACと呼ばれる新しいアドバイザリ・イン・ザ・ループアクター・クリティカル・フレームワークを提案する。
Ask-ACの中心には2つの補完的なコンポーネント、すなわちアクションリクエスタとアダプティブステートセレクタがある。
定常環境および非定常環境における実験結果から,提案手法はエージェントの学習効率を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 36.117350670026134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the promising results achieved, state-of-the-art interactive
reinforcement learning schemes rely on passively receiving supervision signals
from advisor experts, in the form of either continuous monitoring or
pre-defined rules, which inevitably result in a cumbersome and expensive
learning process. In this paper, we introduce a novel initiative
advisor-in-the-loop actor-critic framework, termed as Ask-AC, that replaces the
unilateral advisor-guidance mechanism with a bidirectional learner-initiative
one, and thereby enables a customized and efficacious message exchange between
learner and advisor. At the heart of Ask-AC are two complementary components,
namely action requester and adaptive state selector, that can be readily
incorporated into various discrete actor-critic architectures. The former
component allows the agent to initiatively seek advisor intervention in the
presence of uncertain states, while the latter identifies the unstable states
potentially missed by the former especially when environment changes, and then
learns to promote the ask action on such states. Experimental results on both
stationary and non-stationary environments and across different actor-critic
backbones demonstrate that the proposed framework significantly improves the
learning efficiency of the agent, and achieves the performances on par with
those obtained by continuous advisor monitoring.
- Abstract(参考訳): 有望な成果にもかかわらず、最先端のインタラクティブな強化学習スキームは、継続的監視または事前定義されたルールの形で、アドバイザー専門家から受動的に監視信号を受け取ることに依存し、必然的に面倒で高価な学習プロセスをもたらす。
本稿では,単側指導機構を双方向学習者支援機構に置き換え,学習者と指導者間のカスタマイズかつ有効性のあるメッセージ交換を可能にする,ask-acと呼ばれる新たな指導者批判フレームワークを提案する。
ask-acの核心には、アクション・リクエスタと適応状態セレクタという2つの補完的なコンポーネントがあり、様々なアクター・クリティック・アーキテクチャに容易に組み込むことができる。
前者の構成要素は、エージェントが不確実な状態の存在下でアドバイザの介入を主導的に求め、後者は、特に環境の変化時に前者が見逃す可能性のある不安定な状態を識別し、そのような状態に対する要求行動を促進することを学習する。
静止環境および非定常環境および異なるアクター・クリティック・バックボーンにおける実験結果から,提案フレームワークはエージェントの学習効率を著しく向上し,連続的なアドバイザモニタリングにより得られたものと同等の性能が得られることを示した。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - BRNES: Enabling Security and Privacy-aware Experience Sharing in
Multiagent Robotic and Autonomous Systems [0.15749416770494704]
本稿では,各学習ステップにおいて,各アドバイスに対して動的隣接領域を選択する新しいMARLフレームワーク(BRNES)を提案する。
実験の結果,我々のフレームワークは,目標達成までの歩み,報奨,目標達成までの時間において,最先端のフレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-02T16:57:19Z) - Broad-persistent Advice for Interactive Reinforcement Learning Scenarios [2.0549239024359762]
本稿では,提供される知識の保持・再利用方法を提案する。
その結果,広義のアドバイスを用いることで,エージェントの性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:46:27Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Persistent Rule-based Interactive Reinforcement Learning [0.5999777817331317]
現在の対話型強化学習研究は、現在の状態にのみ関連するアドバイスを提供する相互作用に限られている。
本稿では,ルールに基づく対話型強化学習手法,すなわち,提供された知識の保持と再利用のための手法を提案する。
実験の結果,持続的アドバイスはエージェントの性能を著しく向上させるとともに,トレーナーに必要なインタラクションの数を減らすことができることがわかった。
論文 参考訳(メタデータ) (2021-02-04T06:48:57Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。