論文の概要: Learning mirror maps in policy mirror descent
- arxiv url: http://arxiv.org/abs/2402.05187v2
- Date: Fri, 7 Jun 2024 16:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:07:34.178374
- Title: Learning mirror maps in policy mirror descent
- Title(参考訳): ポリシーミラー降下におけるミラーマップの学習
- Authors: Carlo Alfano, Sebastian Towers, Silvia Sapora, Chris Lu, Patrick Rebeschini,
- Abstract要約: Policy Mirror Descent (PMD) は強化学習の一般的なフレームワークである。
その人気にもかかわらず、MDの完全な可能性の探索は限られている。
より複雑な環境で負のエントロピーを上回るミラーマップを学習することは可能であることを示す。
- 参考スコア(独自算出の注目度): 12.792602427704391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy Mirror Descent (PMD) is a popular framework in reinforcement learning, serving as a unifying perspective that encompasses numerous algorithms. These algorithms are derived through the selection of a mirror map and enjoy finite-time convergence guarantees. Despite its popularity, the exploration of PMD's full potential is limited, with the majority of research focusing on a particular mirror map -- namely, the negative entropy -- which gives rise to the renowned Natural Policy Gradient (NPG) method. It remains uncertain from existing theoretical studies whether the choice of mirror map significantly influences PMD's efficacy. In our work, we conduct empirical investigations to show that the conventional mirror map choice (NPG) often yields less-than-optimal outcomes across several standard benchmark environments. Using evolutionary strategies, we identify more efficient mirror maps that enhance the performance of PMD. We first focus on a tabular environment, i.e. Grid-World, where we relate existing theoretical bounds with the performance of PMD for a few standard mirror maps and the learned one. We then show that it is possible to learn a mirror map that outperforms the negative entropy in more complex environments, such as the MinAtar suite. Our results suggest that mirror maps generalize well across various environments, raising questions about how to best match a mirror map to an environment's structure and characteristics.
- Abstract(参考訳): Policy Mirror Descent (PMD) は強化学習の一般的なフレームワークであり、多数のアルゴリズムを包含する統一的な視点として機能する。
これらのアルゴリズムはミラーマップの選択によって導出され、有限時間収束保証を享受する。
その人気にもかかわらず、PMDの完全なポテンシャルの探索は限られており、ほとんどの研究は特定のミラーマップ、すなわち負のエントロピーに焦点を当てており、有名な自然政策勾配法(NPG)の手法を生み出している。
ミラーマップの選択がPMDの有効性に大きな影響を及ぼすかどうかは、既存の理論的研究からはまだ不明である。
本研究では,従来のミラーマップ選択 (NPG) が,複数の標準ベンチマーク環境において,最適でない結果をもたらすことを示す実験的検討を行った。
進化的戦略を用いて、より効率的なミラーマップを同定し、MDの性能を高める。
我々はまず表計算環境、すなわちグリッドワールドに焦点をあて、いくつかの標準的なミラーマップと学習済みのMDの性能と既存の理論的境界を関連づける。
すると、MinAtarスイートのようなより複雑な環境で、負のエントロピーよりも優れたミラーマップを学習できることが示される。
その結果,ミラーマップは様々な環境にまたがって一般化し,ミラーマップを環境の構造や特性に最もよく適合させるか,という疑問が浮き彫りになった。
関連論文リスト
- MirrorGaussian: Reflecting 3D Gaussians for Reconstructing Mirror Reflections [58.003014868772254]
MirrorGaussian は 3D Gaussian Splatting に基づくリアルタイムレンダリングによるミラーシーン再構築手法である。
本稿では,現実の3Dガウスと鏡面の両面の微分を可能にする直感的なデュアルレンダリング戦略を提案する。
我々の手法は既存の手法よりも優れており、最先端の結果が得られている。
論文 参考訳(メタデータ) (2024-05-20T09:58:03Z) - Efficient Mirror Detection via Multi-level Heterogeneous Learning [39.091162729266294]
HetNetは高効率なミラー検出ネットワークである。
HetNetは、ミラーを検出するために異なる段階で特定の情報を取得する効果的なアーキテクチャに従う。
最先端の手法と比較して、HetNetは664$%より高速に動作し、MAEでは8.9$%、IoUでは3.1$%、F測定では2.0$%という平均的なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2022-11-28T18:51:11Z) - Symmetry-Aware Transformer-based Mirror Detection [85.47570468668955]
デュアルパス・シンメトリ・アウェア・トランスフォーマーを用いたミラー検出ネットワーク(SATNet)を提案する。
SATNetにはSymmetry-Aware Attention Module (SAAM)とContrastとFusion Decoder Module (CFDM)の2つの新しいモジュールが含まれている。
実験の結果,SATNet は RGB と RGB-D の両方のミラー検出法に優れることがわかった。
論文 参考訳(メタデータ) (2022-07-13T16:40:01Z) - Mirror-Yolo: A Novel Attention Focus, Instance Segmentation and Mirror Detection Model [6.048747739825864]
YOLOv4は物体検出精度と速度の点で驚くべき結果を得るが、それでもミラーの検出には失敗する。
本稿では,ミラー検出を対象とするミラー・ヨロを提案する。
論文 参考訳(メタデータ) (2022-02-17T08:03:48Z) - Unpaired Image Super-Resolution with Optimal Transport Maps [128.1189695209663]
実世界の画像超解像(SR)タスクは、しばしば、教師付き技術の適用を制限するペアデータセットを持っていない。
本稿では,非バイアスのOTマップを知覚輸送コストで学習する未ペアSRのアルゴリズムを提案する。
我々のアルゴリズムは、大規模無人AIM-19データセット上で、最先端のパフォーマンスをほぼ提供する。
論文 参考訳(メタデータ) (2022-02-02T16:21:20Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Efficient LiDAR Odometry for Autonomous Driving [16.22522474028277]
LiDARオドメトリーは、自律ナビゲーションの自己局在化とマッピングにおいて重要な役割を果たします。
近年の球面範囲画像ベース手法は球面マッピングによる高速近接探索の利点を享受している。
そこで本稿では,非球面画像と鳥眼視図の両面を基盤点に利用して,新しい効率的なLiDARオドメトリー手法を提案する。
論文 参考訳(メタデータ) (2021-04-22T06:05:09Z) - Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance [78.34235841168031]
シングルイメージリフレクション除去(SIRR)のためのリフレクション・アウェア・ガイダンス(RAGNet)を用いた新しい2段階ネットワークを提案する。
RAGは、(i)観測からの反射の効果を緩和するために、(ii)線形結合仮説から逸脱する効果を緩和するための部分畳み込みにおいてマスクを生成するために用いられる。
5つの一般的なデータセットの実験は、最先端のSIRR法と比較して、RAGNetの量的および質的な優位性を実証している。
論文 参考訳(メタデータ) (2020-12-02T03:14:57Z) - Adaptive confidence thresholding for monocular depth estimation [83.06265443599521]
本稿では,自己教師付ステレオマッチング法から生成されたステレオ画像の擬似地上真実深度マップを利用する新しい手法を提案する。
擬似地底深度マップの信頼度マップを推定し、不正確な擬似地底深度マップによる性能劣化を緩和する。
実験結果から, 最先端の単分子深度推定法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-09-27T13:26:16Z) - DeepFactors: Real-Time Probabilistic Dense Monocular SLAM [29.033778410908877]
本稿では,リアルタイム性能を維持しつつ,確率的フレームワークでメソッドを統一するSLAMシステムを提案する。
これは、学習されたコンパクトな深度マップ表現を使用し、3種類のエラーを修正することによって達成される。
本研究では,実世界列の軌跡推定と深度再構成に関するシステム評価を行い,推定密度幾何の様々な例を示す。
論文 参考訳(メタデータ) (2020-01-14T21:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。