Fugu-MT 論文翻訳(概要): Meta-learning the mirror map in policy mirror descent

論文の概要: Meta-learning the mirror map in policy mirror descent

arxiv url: http://arxiv.org/abs/2402.05187v1
Date: Wed, 7 Feb 2024 19:01:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 17:30:27.976492
Title: Meta-learning the mirror map in policy mirror descent
Title（参考訳）: ポリシーミラー降下におけるミラーマップのメタ学習
Authors: Carlo Alfano, Sebastian Towers, Silvia Sapora, Chris Lu, Patrick Rebeschini
Abstract要約: Policy Mirror Descent (PMD) は強化学習の一般的なフレームワークである。メタラーニング手法を適用することにより、より効率的なミラーマップを同定し、性能を向上させる。その結果,ミラーマップは様々な環境に適応できる可能性が示唆された。
参考スコア（独自算出の注目度）: 13.724491757145385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy Mirror Descent (PMD) is a popular framework in reinforcement learning, serving as a unifying perspective that encompasses numerous algorithms. These algorithms are derived through the selection of a mirror map and enjoy finite-time convergence guarantees. Despite its popularity, the exploration of PMD's full potential is limited, with the majority of research focusing on a particular mirror map -- namely, the negative entropy -- which gives rise to the renowned Natural Policy Gradient (NPG) method. It remains uncertain from existing theoretical studies whether the choice of mirror map significantly influences PMD's efficacy. In our work, we conduct empirical investigations to show that the conventional mirror map choice (NPG) often yields less-than-optimal outcomes across several standard benchmark environments. By applying a meta-learning approach, we identify more efficient mirror maps that enhance performance, both on average and in terms of best performance achieved along the training trajectory. We analyze the characteristics of these learned mirror maps and reveal shared traits among certain settings. Our results suggest that mirror maps have the potential to be adaptable across various environments, raising questions about how to best match a mirror map to an environment's structure and characteristics.
Abstract（参考訳）: Policy Mirror Descent (PMD) は強化学習の一般的なフレームワークであり、多数のアルゴリズムを含む統一的な視点として機能する。これらのアルゴリズムはミラーマップの選択によって導出され、有限時間収束を保証する。その人気にもかかわらず、PMDの完全な潜在能力の探索は限られており、特定のミラーマップ(すなわち負のエントロピー)に焦点を当てた研究の大部分は、有名な自然政策勾配(NPG)法を生み出している。ミラーマップの選択がpmdの有効性に大きく影響するかどうかは、既存の理論的研究から明らかでない。本研究では,従来のミラーマップ選択 (NPG) が,いくつかの標準ベンチマーク環境において,最適でない結果をもたらすことを示す実験的検討を行った。メタラーニング手法を適用することで、トレーニング軌道に沿って達成される最高の性能の両面において、パフォーマンスを高めるより効率的なミラーマップを同定する。学習したミラーマップの特徴を分析し、特定の設定間で共有特性を明らかにする。その結果,ミラーマップは様々な環境に適応できる可能性が示唆され,ミラーマップを環境の構造や特性に最適に適合させる方法についての疑問が提起された。

関連論文リスト

Improved Regret Guarantees for Online Mirror Descent using a Portfolio of Mirror Maps [3.3654644618480547]
L_p$ と $L_p$ を補間する測地線に対して鏡写像を用いることで, 後悔の内在的な利得が得られることを示す。特に,ブロックノルムに基づくミラーマップがOEGやOPGDに対して($d$で)証明可能な改善を達成できるような,オンライン凸最適化インスタンスのファミリを$mathbbRd$で構築する。
論文参考訳（メタデータ） (2026-02-13T18:37:26Z)
MirrorMamba: Towards Scalable and Robust Mirror Detection in Videos [64.87702843502889]
我々はMirrorMambaと呼ばれる新しい有効でスケーラブルなビデオミラー検出手法を提案する。提案手法では,様々な条件に適応し,知覚深度,対応性,光学的手法を取り入れた。特に、この研究は、ミラー検出の分野におけるMambaベースのアーキテクチャの初めての成功例である。
論文参考訳（メタデータ） (2025-11-10T05:18:14Z)
MirrorGaussian: Reflecting 3D Gaussians for Reconstructing Mirror Reflections [58.003014868772254]
MirrorGaussian は 3D Gaussian Splatting に基づくリアルタイムレンダリングによるミラーシーン再構築手法である。本稿では,現実の3Dガウスと鏡面の両面の微分を可能にする直感的なデュアルレンダリング戦略を提案する。我々の手法は既存の手法よりも優れており、最先端の結果が得られている。
論文参考訳（メタデータ） (2024-05-20T09:58:03Z)
Efficient Mirror Detection via Multi-level Heterogeneous Learning [39.091162729266294]
HetNetは高効率なミラー検出ネットワークである。 HetNetは、ミラーを検出するために異なる段階で特定の情報を取得する効果的なアーキテクチャに従う。最先端の手法と比較して、HetNetは664$%より高速に動作し、MAEでは8.9$%、IoUでは3.1$%、F測定では2.0$%という平均的なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2022-11-28T18:51:11Z)
Symmetry-Aware Transformer-based Mirror Detection [85.47570468668955]
デュアルパス・シンメトリ・アウェア・トランスフォーマーを用いたミラー検出ネットワーク(SATNet)を提案する。 SATNetにはSymmetry-Aware Attention Module (SAAM)とContrastとFusion Decoder Module (CFDM)の2つの新しいモジュールが含まれている。実験の結果,SATNet は RGB と RGB-D の両方のミラー検出法に優れることがわかった。
論文参考訳（メタデータ） (2022-07-13T16:40:01Z)
Mirror-Yolo: A Novel Attention Focus, Instance Segmentation and Mirror Detection Model [6.048747739825864]
YOLOv4は物体検出精度と速度の点で驚くべき結果を得るが、それでもミラーの検出には失敗する。本稿では,ミラー検出を対象とするミラー・ヨロを提案する。
論文参考訳（メタデータ） (2022-02-17T08:03:48Z)
Unpaired Image Super-Resolution with Optimal Transport Maps [128.1189695209663]
実世界の画像超解像(SR)タスクは、しばしば、教師付き技術の適用を制限するペアデータセットを持っていない。本稿では,非バイアスのOTマップを知覚輸送コストで学習する未ペアSRのアルゴリズムを提案する。我々のアルゴリズムは、大規模無人AIM-19データセット上で、最先端のパフォーマンスをほぼ提供する。
論文参考訳（メタデータ） (2022-02-02T16:21:20Z)
CAMERAS: Enhanced Resolution And Sanity preserving Class Activation Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。 CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文参考訳（メタデータ） (2021-06-20T08:20:56Z)
Efficient LiDAR Odometry for Autonomous Driving [16.22522474028277]
LiDARオドメトリーは、自律ナビゲーションの自己局在化とマッピングにおいて重要な役割を果たします。近年の球面範囲画像ベース手法は球面マッピングによる高速近接探索の利点を享受している。そこで本稿では,非球面画像と鳥眼視図の両面を基盤点に利用して,新しい効率的なLiDARオドメトリー手法を提案する。
論文参考訳（メタデータ） (2021-04-22T06:05:09Z)
Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance [78.34235841168031]
シングルイメージリフレクション除去(SIRR)のためのリフレクション・アウェア・ガイダンス(RAGNet)を用いた新しい2段階ネットワークを提案する。 RAGは、(i)観測からの反射の効果を緩和するために、(ii)線形結合仮説から逸脱する効果を緩和するための部分畳み込みにおいてマスクを生成するために用いられる。 5つの一般的なデータセットの実験は、最先端のSIRR法と比較して、RAGNetの量的および質的な優位性を実証している。
論文参考訳（メタデータ） (2020-12-02T03:14:57Z)
Adaptive confidence thresholding for monocular depth estimation [83.06265443599521]
本稿では,自己教師付ステレオマッチング法から生成されたステレオ画像の擬似地上真実深度マップを利用する新しい手法を提案する。擬似地底深度マップの信頼度マップを推定し、不正確な擬似地底深度マップによる性能劣化を緩和する。実験結果から, 最先端の単分子深度推定法よりも優れた性能を示した。
論文参考訳（メタデータ） (2020-09-27T13:26:16Z)
DeepFactors: Real-Time Probabilistic Dense Monocular SLAM [29.033778410908877]
本稿では,リアルタイム性能を維持しつつ,確率的フレームワークでメソッドを統一するSLAMシステムを提案する。これは、学習されたコンパクトな深度マップ表現を使用し、3種類のエラーを修正することによって達成される。本研究では,実世界列の軌跡推定と深度再構成に関するシステム評価を行い,推定密度幾何の様々な例を示す。
論文参考訳（メタデータ） (2020-01-14T21:08:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。