論文の概要: Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains
- arxiv url: http://arxiv.org/abs/2508.00046v1
- Date: Thu, 31 Jul 2025 16:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.603117
- Title: Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains
- Title(参考訳): メモリ改善可能なドメイン集合を用いた強化学習における部分観測可能性のベンチマーク
- Authors: Ruo Yu Tao, Kaicheng Guo, Cameron Allen, George Konidaris,
- Abstract要約: 部分観測可能性の緩和は、一般的な強化学習アルゴリズムにとって難しい課題である。
部分可観測性に対処するほとんどのアルゴリズムは、単純な状態エイリアスを持つベンチマークでのみ評価される。
我々は、部分的に可観測性の下での実証的な強化学習のためのベストプラクティスガイドラインと、オープンソースのライブラリPOBAXを紹介します。
- 参考スコア(独自算出の注目度): 11.791215135603963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mitigating partial observability is a necessary but challenging task for general reinforcement learning algorithms. To improve an algorithm's ability to mitigate partial observability, researchers need comprehensive benchmarks to gauge progress. Most algorithms tackling partial observability are only evaluated on benchmarks with simple forms of state aliasing, such as feature masking and Gaussian noise. Such benchmarks do not represent the many forms of partial observability seen in real domains, like visual occlusion or unknown opponent intent. We argue that a partially observable benchmark should have two key properties. The first is coverage in its forms of partial observability, to ensure an algorithm's generalizability. The second is a large gap between the performance of a agents with more or less state information, all other factors roughly equal. This gap implies that an environment is memory improvable: where performance gains in a domain are from an algorithm's ability to cope with partial observability as opposed to other factors. We introduce best-practice guidelines for empirically benchmarking reinforcement learning under partial observability, as well as the open-source library POBAX: Partially Observable Benchmarks in JAX. We characterize the types of partial observability present in various environments and select representative environments for our benchmark. These environments include localization and mapping, visual control, games, and more. Additionally, we show that these tasks are all memory improvable and require hard-to-learn memory functions, providing a concrete signal for partial observability research. This framework includes recommended hyperparameters as well as algorithm implementations for fast, out-of-the-box evaluation, as well as highly performant environments implemented in JAX for GPU-scalable experimentation.
- Abstract(参考訳): 一般強化学習アルゴリズムでは,部分観測可能性の緩和が不可欠だが難しい課題である。
部分観測可能性を軽減するアルゴリズムの能力を改善するために、研究者は進捗を測定するために包括的なベンチマークが必要である。
部分可観測性に対処するほとんどのアルゴリズムは、機能マスキングやガウスノイズのような単純な状態エイリアスを持つベンチマークでのみ評価される。
このようなベンチマークは、視覚的排除や未知の反対意図など、実際の領域で見られる多くの部分観測可能性を表すものではない。
部分的に観測可能なベンチマークは2つの重要な特性を持つべきだと我々は主張する。
1つ目は、アルゴリズムの一般化性を保証するために、部分可観測性の形式でのカバレッジである。
2つ目は、多かれ少なかれ状態情報を持つエージェントのパフォーマンスの間の大きなギャップであり、他のすべての要因は概ね等しい。
ドメインのパフォーマンスが向上するのは、他の要因とは対照的に、部分的な可観測性に対処するアルゴリズムの能力からである。
我々は、部分的な可観測性の下で強化学習を実証的にベンチマークするためのベストプラクティスガイドラインと、オープンソースのライブラリPOBAXを紹介します。
各種環境に存在する部分観測可能性のタイプを特徴付けるとともに,ベンチマークの代表的な環境を選択する。
これらの環境には、ローカライゼーションとマッピング、ビジュアルコントロール、ゲームなどが含まれる。
さらに、これらのタスクはすべてメモリ即興であり、学習しにくいメモリ機能を必要とすることを示し、部分観測可能性研究のための具体的な信号を提供する。
このフレームワークには、推奨のハイパーパラメータだけでなく、高速でアウトオブボックスな評価のためのアルゴリズム実装や、GPUスケーリング可能な実験のためにJAXで実装された高性能な環境が含まれている。
関連論文リスト
- Zero-Shot Reinforcement Learning Under Partial Observability [5.079602839359521]
本研究では, 標準ゼロショット強化学習法が部分的に観測可能である場合, 劣化することを示す。
我々は、状態、報酬、動的変化が部分的に観察される領域において、メモリベースのゼロショットRL法を評価する。
論文 参考訳(メタデータ) (2025-06-18T13:18:36Z) - Improving Contrastive Learning for Referring Expression Counting [35.979549843591926]
C-REXは、教師付きコントラスト学習に基づく、新しいコントラスト学習フレームワークである。
画像空間内で完全に動作し、画像テキストのコントラスト学習のミスアライメントの問題を避ける。
C-REXはReferring Expression Countingで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-28T20:33:42Z) - MOKD: Cross-domain Finetuning for Few-shot Classification via Maximizing Optimized Kernel Dependence [97.93517982908007]
NCCは、ドメイン間数ショットの分類において、少数ショットの分類が可能なメートル法空間を構築するために表現を学ぶことを目的としている。
本稿では,異なるクラスから得られた2つの標本の NCC 学習表現に高い類似性があることを見出した。
ラベル付きデータによって示されるクラスタ構造にマッチするクラス固有の表現の集合を学習するために、最適化されたカーネル依存(MOKD)を最大化する二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T05:59:52Z) - Learning Algorithms for Verification of Markov Decision Processes [20.5951492453299]
マルコフ決定過程(MDP)の検証に学習アルゴリズムを適用するための一般的な枠組みを提案する。
提案するフレームワークは,検証における中核的な問題である確率的到達性に重点を置いている。
論文 参考訳(メタデータ) (2024-03-14T08:54:19Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - The MAGICAL Benchmark for Robust Imitation [16.699877076711548]
シミュレーション学習(IL)アルゴリズムは通常、デモを作成するのに使われたのと同じ環境で評価される。
本稿では,一般化の体系的評価を可能にするMAGICALベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2020-11-01T02:04:16Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。