論文の概要: KnowPC: Knowledge-Driven Programmatic Reinforcement Learning for Zero-shot Coordination
- arxiv url: http://arxiv.org/abs/2408.04336v1
- Date: Thu, 8 Aug 2024 09:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:58:20.997914
- Title: KnowPC: Knowledge-Driven Programmatic Reinforcement Learning for Zero-shot Coordination
- Title(参考訳): KnowPC:ゼロショットコーディネーションのための知識駆動型プログラム強化学習
- Authors: Yin Gu, Qi Liu, Zhi Li, Kai Zhang,
- Abstract要約: ゼロショットコーディネート(ZSC)は、AI分野における大きな課題である。
本稿では,ZSCのための知識駆動型プログラム強化学習について紹介する。
重要な課題は、膨大なプログラム検索スペースであり、高性能なプログラムを効率的に見つけることは困難である。
- 参考スコア(独自算出の注目度): 11.203441390685201
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Zero-shot coordination (ZSC) remains a major challenge in the cooperative AI field, which aims to learn an agent to cooperate with an unseen partner in training environments or even novel environments. In recent years, a popular ZSC solution paradigm has been deep reinforcement learning (DRL) combined with advanced self-play or population-based methods to enhance the neural policy's ability to handle unseen partners. Despite some success, these approaches usually rely on black-box neural networks as the policy function. However, neural networks typically lack interpretability and logic, making the learned policies difficult for partners (e.g., humans) to understand and limiting their generalization ability. These shortcomings hinder the application of reinforcement learning methods in diverse cooperative scenarios.We suggest to represent the agent's policy with an interpretable program. Unlike neural networks, programs contain stable logic, but they are non-differentiable and difficult to optimize.To automatically learn such programs, we introduce Knowledge-driven Programmatic reinforcement learning for zero-shot Coordination (KnowPC). We first define a foundational Domain-Specific Language (DSL), including program structures, conditional primitives, and action primitives. A significant challenge is the vast program search space, making it difficult to find high-performing programs efficiently. To address this, KnowPC integrates an extractor and an reasoner. The extractor discovers environmental transition knowledge from multi-agent interaction trajectories, while the reasoner deduces the preconditions of each action primitive based on the transition knowledge.
- Abstract(参考訳): ゼロショットコーディネート(ZSC)は、トレーニング環境や新しい環境において、見えないパートナーと協力するエージェントを学ぶことを目的とした、AI分野における大きな課題である。
近年、人気のあるZSCソリューションパラダイムは、未確認のパートナーを扱う神経政策の能力を高めるための高度な自己プレイまたは人口ベースの手法と組み合わせて、深層強化学習(DRL)である。
いくつかの成功にもかかわらず、これらのアプローチは通常、ポリシー機能としてブラックボックスニューラルネットワークに依存している。
しかし、ニューラルネットワークは一般的に解釈可能性と論理を欠いているため、学習されたポリシーは、パートナー(例えば人間)が一般化能力を理解して制限することを困難にしている。
これらの欠点は, 多様な協調シナリオにおける強化学習手法の適用を阻害するものであり, エージェントの政策を解釈可能なプログラムで表現することを提案する。
ニューラルネットワークとは異なり、プログラムには安定な論理が含まれているが、それらは微分不可能で最適化が難しいため、そのようなプログラムを自動的に学習するために、ゼロショットコーディネーション(KnowPC)のための知識駆動型プログラム強化学習を導入する。
まず、プログラム構造、条件付きプリミティブ、アクションプリミティブを含む基礎的なドメイン特化言語(DSL)を定義します。
重要な課題は、膨大なプログラム検索スペースであり、高性能なプログラムを効率的に見つけることは困難である。
この問題を解決するために、KnowPCは抽出器と推論器を統合する。
抽出器は、多エージェント相互作用軌跡から環境遷移知識を発見し、推論器は、遷移知識に基づいて、各アクションプリミティブの前提条件を推定する。
関連論文リスト
- Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input [5.522800137785975]
本稿では,大規模言語モデル(LLM)と階層的強化学習(HRL)フレームワークを連携させるシステムを提案する。
提案システムは,人間の利害関係者からの言語入力を実用的なRLインサイトへ翻訳し,検索戦略を調整するように設計されている。
LLMによる人為的情報の利用とHRLによるタスク実行の構造化により、長い地平線とスパース報酬を特徴とする環境におけるエージェントの学習効率と意思決定プロセスを大幅に改善する。
論文 参考訳(メタデータ) (2024-09-20T12:27:47Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Reasoning Algorithmically in Graph Neural Networks [1.8130068086063336]
ニューラルネットワークの適応学習能力にアルゴリズムの構造的および規則に基づく推論を統合することを目的としている。
この論文は、この領域の研究に理論的および実践的な貢献を提供する。
論文 参考訳(メタデータ) (2024-02-21T12:16:51Z) - LPAC: Learnable Perception-Action-Communication Loops with Applications
to Coverage Control [80.86089324742024]
本稿では,その問題に対する学習可能なパーセプション・アクション・コミュニケーション(LPAC)アーキテクチャを提案する。
CNNは局所認識を処理する。グラフニューラルネットワーク(GNN)はロボットのコミュニケーションを促進する。
評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-01-10T00:08:00Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Learning Compositional Neural Programs for Continuous Control [62.80551956557359]
スパース逆連続制御問題に対する新しい解法を提案する。
我々のソリューションはAlphaNPI-Xと呼ばれ、学習の3つの段階を含む。
我々はAlphaNPI-Xがスパース操作の課題に効果的に取り組むことを実証的に示す。
論文 参考訳(メタデータ) (2020-07-27T08:27:14Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human
Suboptimal Knowledge [40.343858932413376]
我々は,人間の事前最適知識と強化学習を組み合わせた新しい枠組みである知識誘導政策ネットワーク(KoGuN)を提案する。
我々のフレームワークは、人間の知識を表すファジィルールコントローラと、微調整されたサブ最適事前知識を表す洗練されたモジュールで構成されている。
論文 参考訳(メタデータ) (2020-02-18T07:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。