論文の概要: Issues in "Cross-Domain Imitation Learning via Optimal Transport" and a
possible fix
- arxiv url: http://arxiv.org/abs/2205.03476v1
- Date: Fri, 6 May 2022 21:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 13:10:40.310631
- Title: Issues in "Cross-Domain Imitation Learning via Optimal Transport" and a
possible fix
- Title(参考訳): 最適輸送によるクロスドメイン模倣学習の課題と課題
- Authors: Ruichao Jiang, Javad Tavakoli, and Yiqinag Zhao
- Abstract要約: これらの手法が数学的問題とアルゴリズム的問題の両方に悩まされていることを示す。
我々は、マルコフ決定過程(MDP)の打上げ時を用いて、それらの数学的問題を修正し、アルゴリズム問題の背後にある困難を議論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: [4] proposes to use the Gromov-Wasserstein ( GW) [6] distance as a proxy
reward for imitation learning. We show that their approach suffers both
mathematical and algorithmic issues. We use hitting-time of a Markov decision
process (MDP) to fix their mathematical issues and discuss the difficulty
behind the algorithmic issue. To our best knowledge, we are the first to define
the first-hitting time in the context of MDP.
- Abstract(参考訳): 4]gromov-wasserstein (gw) [6]距離を模倣学習の代理報酬として用いることを提案する。
これらの手法は数学的問題とアルゴリズム的問題の両方に悩まされている。
我々は、マルコフ決定過程(MDP)の打上げ時を用いて、それらの数学的問題を修正し、アルゴリズム問題の背後にある困難を議論する。
私たちの知る限りでは、MDPの文脈で最初のヒットタイムを定義するのは初めてです。
関連論文リスト
- Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - No-Regret Reinforcement Learning in Smooth MDPs [24.249446550171307]
本稿では,これまで提案されてきたほとんどの設定を一般化した,決定プロセス(MDP)に関する新たな構造仮定を提案する。
本稿では,2つのアルゴリズムを用いて,$nu-$smoothnessにおける後悔の最小化を提案する。
結果とRL理論の最先端技術を比較し,アルゴリズムが最高の保証を達成することを示す。
論文 参考訳(メタデータ) (2024-02-06T08:18:14Z) - Learning to Accelerate Approximate Methods for Solving Integer
Programming via Early Fixing [29.29673962163146]
いくつかの反復近似法によって解かれた変数は、非常に長い反復で最終的な収束した離散状態の周りに変動する。
この観測から着想を得た我々は、これらの変動変数を収束状態に早期に固定することにより、これらの近似手法を加速することを目指している。
初期固定プロセス全体をマルコフ決定プロセスとして定式化し、模倣学習を用いて訓練する。
論文 参考訳(メタデータ) (2022-07-05T14:46:47Z) - Leveraging Experience in Lazy Search [37.75223642505171]
遅延グラフ探索アルゴリズムは、エッジ評価が計算ボトルネックとなる動き計画問題の解法において効率的である。
我々は,この問題を探索問題の状態に関するマルコフ決定過程 (MDP) として定式化する。
我々は,訓練中にMDPを解くことができる分子セレクタを計算可能であることを示す。
論文 参考訳(メタデータ) (2021-10-10T00:46:44Z) - Learning the Markov Decision Process in the Sparse Gaussian Elimination [0.0]
スパースガウス除去のための学習に基づくアプローチを提案する。
スパースソルバの主モジュールに対するQ-Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-30T08:56:39Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - The best of both worlds: stochastic and adversarial episodic MDPs with
unknown transition [49.78053380710322]
我々は,エピソードT$でマルコフ決定過程を学習する上で,両世界の最良の問題を考える。
最近の[Jin and Luo, 2020]による研究は、固定遷移が分かっているときにこの目標を達成する。
本研究では,同じFollow-the-Regularized-Leader(textFTRL$)フレームワークを新しいテクニックのセットと組み合わせることで,この問題を解決する。
論文 参考訳(メタデータ) (2021-06-08T05:46:35Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Learning NP-Hard Multi-Agent Assignment Planning using GNN: Inference on
a Random Graph and Provable Auction-Fitted Q-learning [24.956507498394497]
本稿では,学習に基づくアルゴリズムを用いて,時間依存報酬を用いたマルチエージェント・マルチタスクNPハードプランニング問題をほぼ最適に解決する可能性について検討する。
論文 参考訳(メタデータ) (2019-05-29T04:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。