論文の概要: Deep Adaptive Multi-Intention Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.06692v1
- Date: Wed, 14 Jul 2021 13:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 19:21:35.278427
- Title: Deep Adaptive Multi-Intention Inverse Reinforcement Learning
- Title(参考訳): 深層適応型多目的逆強化学習
- Authors: Ariyan Bighashdel, Panagiotis Meletis, Pavol Jancura, and Gijs
Dubbelman
- Abstract要約: 本稿では,ラベルのない専門家のデモンストレーションから,事前の未知の非線形報酬関数を学習可能な,深い逆強化学習フレームワークを提案する。
このツールをディリクレプロセスから採用し、複雑な報酬関数と未知の報酬関数の両方を同時に考慮する適応的アプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a deep Inverse Reinforcement Learning (IRL) framework
that can learn an a priori unknown number of nonlinear reward functions from
unlabeled experts' demonstrations. For this purpose, we employ the tools from
Dirichlet processes and propose an adaptive approach to simultaneously account
for both complex and unknown number of reward functions. Using the conditional
maximum entropy principle, we model the experts' multi-intention behaviors as a
mixture of latent intention distributions and derive two algorithms to estimate
the parameters of the deep reward network along with the number of experts'
intentions from unlabeled demonstrations. The proposed algorithms are evaluated
on three benchmarks, two of which have been specifically extended in this study
for multi-intention IRL, and compared with well-known baselines. We demonstrate
through several experiments the advantages of our algorithms over the existing
approaches and the benefits of online inferring, rather than fixing beforehand,
the number of expert's intentions.
- Abstract(参考訳): 本稿では,非ラベル専門家による実演から事前に未知の非線形報酬関数を学習できる,奥行き逆強化学習(irl)フレームワークを提案する。
この目的のために,dirichletプロセスからのツールを用いて,複雑な報酬関数と未知数の報酬関数を同時に考慮する適応的アプローチを提案する。
条件付き最大エントロピー原理を用いて、専門家の多目的行動を潜在意図分布の混合としてモデル化し、2つのアルゴリズムを導出し、未ラベルのデモンストレーションから専門家の意図の数とともに深い報酬ネットワークのパラメータを推定する。
提案アルゴリズムは3つのベンチマークで評価され、そのうち2つは多目的IRLに対して特に拡張され、よく知られたベースラインと比較された。
既存のアプローチよりもアルゴリズムの利点とオンライン推論のメリットを,いくつかの実験を通じて実証した。
関連論文リスト
- Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Value Function Decomposition in Markov Recommendation Process [19.082512423102855]
本稿では,レコメンダ性能を向上させるためのオンライン強化学習フレームワークを提案する。
これらの2つの因子は、元の時間差損失を分解することで、別々に近似できることを示す。
アンタングル学習フレームワークは、より高速な学習と、アクション探索に対する堅牢性の向上により、より正確な推定を実現することができる。
論文 参考訳(メタデータ) (2025-01-29T04:22:29Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Interpretable Anomaly Detection via Discrete Optimization [1.7150329136228712]
本稿では,シーケンシャルデータから本質的に解釈可能な異常検出を学習するためのフレームワークを提案する。
この問題は計算的に困難であることを示し,制約最適化に基づく2つの学習アルゴリズムを開発した。
プロトタイプ実装を用いて,提案手法は精度とF1スコアの点で有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。