論文の概要: The Cross-environment Hyperparameter Setting Benchmark for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.18840v1
- Date: Fri, 26 Jul 2024 16:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-29 12:59:26.349755
- Title: The Cross-environment Hyperparameter Setting Benchmark for Reinforcement Learning
- Title(参考訳): 強化学習のためのクロス環境ハイパーパラメータ設定ベンチマーク
- Authors: Andrew Patterson, Samuel Neumann, Raksha Kumaraswamy, Martha White, Adam White,
- Abstract要約: 本稿では,新しい経験的手法であるクロス環境ハイパーパラメータ設定ベンチマークを提案する。
このベンチマークは統計的雑音に対して頑健であり、繰り返しアプリケーション間で定性的に類似した結果が得られることを示す。
DDPGアルゴリズムを用いた探索において,Ornstein-Uhlenbeckノイズと非相関なガウスノイズとの間に有意な差はないことを示す。
- 参考スコア(独自算出の注目度): 23.753382949334906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new empirical methodology, the Cross-environment Hyperparameter Setting Benchmark, that compares RL algorithms across environments using a single hyperparameter setting, encouraging algorithmic development which is insensitive to hyperparameters. We demonstrate that this benchmark is robust to statistical noise and obtains qualitatively similar results across repeated applications, even when using few samples. This robustness makes the benchmark computationally cheap to apply, allowing statistically sound insights at low cost. We demonstrate two example instantiations of the CHS, on a set of six small control environments (SC-CHS) and on the entire DM Control suite of 28 environments (DMC-CHS). Finally, to illustrate the applicability of the CHS to modern RL algorithms on challenging environments, we conduct a novel empirical study of an open question in the continuous control literature. We show, with high confidence, that there is no meaningful difference in performance between Ornstein-Uhlenbeck noise and uncorrelated Gaussian noise for exploration with the DDPG algorithm on the DMC-CHS.
- Abstract(参考訳): 本稿では、単一ハイパーパラメータ設定を用いて環境間のRLアルゴリズムを比較し、ハイパーパラメータに敏感なアルゴリズム開発を促進する、新しい経験的手法であるクロス環境ハイパーパラメータ設定ベンチマークを提案する。
このベンチマークは統計的ノイズに対して頑健であり、サンプルが少ない場合でも繰り返しアプリケーション間で定性的に類似した結果が得られることを示す。
このロバスト性により、ベンチマークを計算的に安価に適用でき、統計的に低いコストで洞察を得られる。
6つの小さな制御環境 (SC-CHS) と, DM制御スイート全体 (DMC-CHS) の2つの例を示す。
最後に,最新のRLアルゴリズムに対するCHSの適用性を示すために,連続制御文学におけるオープンな問題に関する新しい実証的研究を行った。
DMC-CHSにおけるDDPGアルゴリズムを用いた探索において,Ornstein-Uhlenbeckノイズと非相関ガウスノイズとの間に有意な差はないことを示す。
関連論文リスト
- AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - Boltzmann Reinforcement Learning for Noise resilience in Analog Ising Machines [0.8739101659113154]
本稿では,分散学習フレームワークであるBRAIN(Boltzmann Reinforcement for Analog Ising Networks)を紹介する。
状態ごとのサンプリングから、複数のノイズ測定にまたがる情報の集約に移行することで、BRAINはガウスノイズに耐性を持つ。
BRAINは65,536スピンまでスケールする$mathcalO(N1.55)を提示し、測定の不確実性に対する堅牢性を最大40%まで維持する。
論文 参考訳(メタデータ) (2026-02-09T20:07:42Z) - Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。
本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T16:06:12Z) - Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - InfoSynth: Information-Guided Benchmark Synthesis for LLMs [69.80981631587501]
大規模言語モデル (LLM) は推論やコード生成において大きな進歩を見せている。
従来のベンチマーク作成は人手による作業に依存しています。
この作業では、推論ベンチマークの自動生成と評価のための新しいフレームワークであるInfo Synthを紹介した。
論文 参考訳(メタデータ) (2026-01-02T05:26:27Z) - GK-SMOTE: A Hyperparameter-free Noise-Resilient Gaussian KDE-Based Oversampling Approach [5.681470105992214]
不均衡分類は、特に医療診断、不正検出、サイバーセキュリティといった重要な応用において、機械学習において重要な課題である。
SMOTEのような従来のオーバーサンプリング技術は、しばしばラベルノイズや複雑なデータ分布の処理に失敗し、分類精度が低下する。
ガウスカーネル密度推定(KDE)に基づくSMOTEの耐雑音性拡張であるGK-SMOTEを提案する。
GK-SMOTEは、高密度のマイノリティ領域で合成サンプルを生成し、ノイズやあいまい領域を効果的に回避し、クラス分離性を高める。
論文 参考訳(メタデータ) (2025-09-14T08:50:30Z) - Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios [76.02688769599686]
本稿では,AIRMVCと呼ばれるノイズデータの自動識別と修正のための新しいマルチビュークラスタリングフレームワークを提案する。
具体的には,GMMを用いて雑音識別を異常識別問題として再構成する。
次に,同定結果に基づいて,ノイズデータの悪影響を軽減するためのハイブリッド補正戦略を設計する。
論文 参考訳(メタデータ) (2025-05-27T16:16:54Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - ChaosMining: A Benchmark to Evaluate Post-Hoc Local Attribution Methods in Low SNR Environments [14.284728947052743]
本研究では,低信号-雑音比(SNR)を特徴とする領域において,非関連領域から予測力のある特徴を識別するためのポストホック局所帰属法の有効性を検討する。
我々の実験では、スケーラビリティの制限とともに、予測と特徴選択の長所を強調しています。
論文 参考訳(メタデータ) (2024-06-17T23:39:29Z) - Parameter optimization comparison in QAOA using Stochastic Hill Climbing with Random Re-starts and Local Search with entangled and non-entangled mixing operators [0.0]
本研究では,Hill Climbing with Random Restarts (SHC-RR) の有効性を検討した。
以上の結果から,SHC-RRはLSアプローチよりも優れており,より単純な最適化機構にもかかわらず優れた有効性を示した。
論文 参考訳(メタデータ) (2024-05-14T20:12:17Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Optimal distributed multiparameter estimation in noisy environments [0.3093890460224435]
ノイズ非感受性戦略の発見と改善方法について検討する。
GHZ状態の逐次探索は, 最大4。
論文 参考訳(メタデータ) (2023-06-01T18:32:53Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Stochastic Gradient MCMC with Multi-Armed Bandit Tuning [2.2559617939136505]
本稿では,SGMCMCハイパーパラメータを調整し,後部近似の精度を最大化するバンディットに基づく新しいアルゴリズムを提案する。
シミュレーションと実データの両方で実験を行い,本手法が広範囲の応用分野に適用可能であることを確認した。
論文 参考訳(メタデータ) (2021-05-27T11:00:31Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - An Asymptotically Optimal Multi-Armed Bandit Algorithm and
Hyperparameter Optimization [48.5614138038673]
本稿では,高パラメータ探索評価のシナリオにおいて,SS (Sub-Sampling) と呼ばれる効率的で堅牢な帯域幅に基づくアルゴリズムを提案する。
また,BOSSと呼ばれる新しいパラメータ最適化アルゴリズムを開発した。
実験的な研究は、SSの理論的議論を検証し、多くのアプリケーションにおけるBOSSの優れた性能を実証する。
論文 参考訳(メタデータ) (2020-07-11T03:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。