論文の概要: Understanding Behavioral Metric Learning: A Large-Scale Study on Distracting Reinforcement Learning Environments
- arxiv url: http://arxiv.org/abs/2506.00563v1
- Date: Sat, 31 May 2025 13:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.199599
- Title: Understanding Behavioral Metric Learning: A Large-Scale Study on Distracting Reinforcement Learning Environments
- Title(参考訳): 行動メトリクス学習の理解--分散強化学習環境に関する大規模研究
- Authors: Ziyan Luo, Tianwei Ni, Pierre-Luc Bacon, Doina Precup, Xujie Si,
- Abstract要約: 状態抽象化の鍵となるアプローチは、観察空間における行動メトリクスを近似し、これらの学習を表現空間に埋め込むことである。
設計選択の異なる等尺的埋め込みとして概念的に統一された最近の5つのアプローチを評価する。
20のステートベースタスクと14のピクセルベースのタスクにまたがってベースラインでベンチマークを行い、370のタスク設定と多様なノイズ設定にまたがる。
- 参考スコア(独自算出の注目度): 45.49492366356368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key approach to state abstraction is approximating behavioral metrics (notably, bisimulation metrics) in the observation space and embedding these learned distances in the representation space. While promising for robustness to task-irrelevant noise, as shown in prior work, accurately estimating these metrics remains challenging, requiring various design choices that create gaps between theory and practice. Prior evaluations focus mainly on final returns, leaving the quality of learned metrics and the source of performance gains unclear. To systematically assess how metric learning works in deep reinforcement learning (RL), we evaluate five recent approaches, unified conceptually as isometric embeddings with varying design choices. We benchmark them with baselines across 20 state-based and 14 pixel-based tasks, spanning 370 task configurations with diverse noise settings. Beyond final returns, we introduce the evaluation of a denoising factor to quantify the encoder's ability to filter distractions. To further isolate the effect of metric learning, we propose and evaluate an isolated metric estimation setting, in which the encoder is influenced solely by the metric loss. Finally, we release an open-source, modular codebase to improve reproducibility and support future research on metric learning in deep RL.
- Abstract(参考訳): 状態抽象化の鍵となるアプローチは、観測空間における行動メトリクス(特にバイシミュレートメトリクス)を近似し、これらの学習された距離を表現空間に埋め込むことである。
タスク非関連ノイズに対する堅牢性を約束する一方で、以前の研究で示されているように、これらのメトリクスを正確に見積もることは依然として困難であり、理論と実践の間にギャップを生じさせる様々な設計上の選択が必要である。
以前の評価では、主に最終リターンに重点を置いており、学習したメトリクスの品質とパフォーマンスの源泉ははっきりしないままである。
深部強化学習(RL)における計量学習の動作を体系的に評価するために,設計選択の異なる等尺埋め込みとして概念的に統合された5つの最近のアプローチを評価した。
20のステートベースタスクと14のピクセルベースのタスクにまたがってベースラインでベンチマークを行い、370のタスク設定と多様なノイズ設定にまたがる。
最終的なリターンの他に、エンコーダの歪みをフィルタリングする能力を定量化するために、デノナイジング係数の評価を導入する。
距離学習の効果をさらに分離するために,エンコーダが距離損失のみの影響を受けない孤立した距離推定設定を提案し,評価する。
最後に,再現性の向上と深部RLにおけるメートル法学習の今後の研究を支援するために,オープンソースでモジュール化されたコードベースをリリースする。
関連論文リスト
- Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces [34.00971641141313]
近年,大規模言語モデル(LLM)の「学習」概念が注目されている。
未学習の手法を評価するための現在のプロトコルは、関連する知識を監視せずに行動テストに依存している。
我々は、未学習概念のパラメトリックな知識トレースの変化を考慮して、未学習を内部的に評価するべきだと論じている。
論文 参考訳(メタデータ) (2024-06-17T15:00:35Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Metric-oriented Speech Enhancement using Diffusion Probabilistic Model [23.84172431047342]
ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって教師されるノイズからクリーンへの変換を学ぶことに焦点を当てている。
タスク固有の評価基準(例えば、PSSQ)は、通常微分不可能であり、トレーニング基準で直接構築することはできない。
本稿では,その逆プロセスにメトリック指向のトレーニング戦略を統合する,距離指向音声強調手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T13:12:35Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Self-Supervised Metric Learning in Multi-View Data: A Downstream Task
Perspective [2.01243755755303]
マルチビューデータの文脈において,自己教師付きメトリック学習が下流タスクにどのような効果をもたらすかを検討する。
本稿では, 下流タスクにおいて, 目標距離がいくつかの望ましい特性を満たすことを示す。
本分析では,4つの下流タスクにおいて,自己教師付きメトリック学習による改善を特徴付ける。
論文 参考訳(メタデータ) (2021-06-14T02:34:33Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。