論文の概要: Meta-learning the mirror map in policy mirror descent
- arxiv url: http://arxiv.org/abs/2402.05187v1
- Date: Wed, 7 Feb 2024 19:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:30:27.976492
- Title: Meta-learning the mirror map in policy mirror descent
- Title(参考訳): ポリシーミラー降下におけるミラーマップのメタ学習
- Authors: Carlo Alfano, Sebastian Towers, Silvia Sapora, Chris Lu, Patrick
Rebeschini
- Abstract要約: Policy Mirror Descent (PMD) は強化学習の一般的なフレームワークである。
メタラーニング手法を適用することにより、より効率的なミラーマップを同定し、性能を向上させる。
その結果,ミラーマップは様々な環境に適応できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 13.724491757145385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy Mirror Descent (PMD) is a popular framework in reinforcement learning,
serving as a unifying perspective that encompasses numerous algorithms. These
algorithms are derived through the selection of a mirror map and enjoy
finite-time convergence guarantees. Despite its popularity, the exploration of
PMD's full potential is limited, with the majority of research focusing on a
particular mirror map -- namely, the negative entropy -- which gives rise to
the renowned Natural Policy Gradient (NPG) method. It remains uncertain from
existing theoretical studies whether the choice of mirror map significantly
influences PMD's efficacy. In our work, we conduct empirical investigations to
show that the conventional mirror map choice (NPG) often yields
less-than-optimal outcomes across several standard benchmark environments. By
applying a meta-learning approach, we identify more efficient mirror maps that
enhance performance, both on average and in terms of best performance achieved
along the training trajectory. We analyze the characteristics of these learned
mirror maps and reveal shared traits among certain settings. Our results
suggest that mirror maps have the potential to be adaptable across various
environments, raising questions about how to best match a mirror map to an
environment's structure and characteristics.
- Abstract(参考訳): Policy Mirror Descent (PMD) は強化学習の一般的なフレームワークであり、多数のアルゴリズムを含む統一的な視点として機能する。
これらのアルゴリズムはミラーマップの選択によって導出され、有限時間収束を保証する。
その人気にもかかわらず、PMDの完全な潜在能力の探索は限られており、特定のミラーマップ(すなわち負のエントロピー)に焦点を当てた研究の大部分は、有名な自然政策勾配(NPG)法を生み出している。
ミラーマップの選択がpmdの有効性に大きく影響するかどうかは、既存の理論的研究から明らかでない。
本研究では,従来のミラーマップ選択 (NPG) が,いくつかの標準ベンチマーク環境において,最適でない結果をもたらすことを示す実験的検討を行った。
メタラーニング手法を適用することで、トレーニング軌道に沿って達成される最高の性能の両面において、パフォーマンスを高めるより効率的なミラーマップを同定する。
学習したミラーマップの特徴を分析し、特定の設定間で共有特性を明らかにする。
その結果,ミラーマップは様々な環境に適応できる可能性が示唆され,ミラーマップを環境の構造や特性に最適に適合させる方法についての疑問が提起された。
関連論文リスト
- MirrorGaussian: Reflecting 3D Gaussians for Reconstructing Mirror Reflections [58.003014868772254]
MirrorGaussian は 3D Gaussian Splatting に基づくリアルタイムレンダリングによるミラーシーン再構築手法である。
本稿では,現実の3Dガウスと鏡面の両面の微分を可能にする直感的なデュアルレンダリング戦略を提案する。
我々の手法は既存の手法よりも優れており、最先端の結果が得られている。
論文 参考訳(メタデータ) (2024-05-20T09:58:03Z) - Efficient Mirror Detection via Multi-level Heterogeneous Learning [39.091162729266294]
HetNetは高効率なミラー検出ネットワークである。
HetNetは、ミラーを検出するために異なる段階で特定の情報を取得する効果的なアーキテクチャに従う。
最先端の手法と比較して、HetNetは664$%より高速に動作し、MAEでは8.9$%、IoUでは3.1$%、F測定では2.0$%という平均的なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2022-11-28T18:51:11Z) - Symmetry-Aware Transformer-based Mirror Detection [85.47570468668955]
デュアルパス・シンメトリ・アウェア・トランスフォーマーを用いたミラー検出ネットワーク(SATNet)を提案する。
SATNetにはSymmetry-Aware Attention Module (SAAM)とContrastとFusion Decoder Module (CFDM)の2つの新しいモジュールが含まれている。
実験の結果,SATNet は RGB と RGB-D の両方のミラー検出法に優れることがわかった。
論文 参考訳(メタデータ) (2022-07-13T16:40:01Z) - Mirror-Yolo: A Novel Attention Focus, Instance Segmentation and Mirror Detection Model [6.048747739825864]
YOLOv4は物体検出精度と速度の点で驚くべき結果を得るが、それでもミラーの検出には失敗する。
本稿では,ミラー検出を対象とするミラー・ヨロを提案する。
論文 参考訳(メタデータ) (2022-02-17T08:03:48Z) - Unpaired Image Super-Resolution with Optimal Transport Maps [128.1189695209663]
実世界の画像超解像(SR)タスクは、しばしば、教師付き技術の適用を制限するペアデータセットを持っていない。
本稿では,非バイアスのOTマップを知覚輸送コストで学習する未ペアSRのアルゴリズムを提案する。
我々のアルゴリズムは、大規模無人AIM-19データセット上で、最先端のパフォーマンスをほぼ提供する。
論文 参考訳(メタデータ) (2022-02-02T16:21:20Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Efficient LiDAR Odometry for Autonomous Driving [16.22522474028277]
LiDARオドメトリーは、自律ナビゲーションの自己局在化とマッピングにおいて重要な役割を果たします。
近年の球面範囲画像ベース手法は球面マッピングによる高速近接探索の利点を享受している。
そこで本稿では,非球面画像と鳥眼視図の両面を基盤点に利用して,新しい効率的なLiDARオドメトリー手法を提案する。
論文 参考訳(メタデータ) (2021-04-22T06:05:09Z) - Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance [78.34235841168031]
シングルイメージリフレクション除去(SIRR)のためのリフレクション・アウェア・ガイダンス(RAGNet)を用いた新しい2段階ネットワークを提案する。
RAGは、(i)観測からの反射の効果を緩和するために、(ii)線形結合仮説から逸脱する効果を緩和するための部分畳み込みにおいてマスクを生成するために用いられる。
5つの一般的なデータセットの実験は、最先端のSIRR法と比較して、RAGNetの量的および質的な優位性を実証している。
論文 参考訳(メタデータ) (2020-12-02T03:14:57Z) - Adaptive confidence thresholding for monocular depth estimation [83.06265443599521]
本稿では,自己教師付ステレオマッチング法から生成されたステレオ画像の擬似地上真実深度マップを利用する新しい手法を提案する。
擬似地底深度マップの信頼度マップを推定し、不正確な擬似地底深度マップによる性能劣化を緩和する。
実験結果から, 最先端の単分子深度推定法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-09-27T13:26:16Z) - DeepFactors: Real-Time Probabilistic Dense Monocular SLAM [29.033778410908877]
本稿では,リアルタイム性能を維持しつつ,確率的フレームワークでメソッドを統一するSLAMシステムを提案する。
これは、学習されたコンパクトな深度マップ表現を使用し、3種類のエラーを修正することによって達成される。
本研究では,実世界列の軌跡推定と深度再構成に関するシステム評価を行い,推定密度幾何の様々な例を示す。
論文 参考訳(メタデータ) (2020-01-14T21:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。