論文の概要: Fast and Data Efficient Reinforcement Learning from Pixels via
Non-Parametric Value Approximation
- arxiv url: http://arxiv.org/abs/2203.03078v1
- Date: Mon, 7 Mar 2022 00:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:30:41.264841
- Title: Fast and Data Efficient Reinforcement Learning from Pixels via
Non-Parametric Value Approximation
- Title(参考訳): 非パラメトリック値近似による画素からの高速・高効率強化学習
- Authors: Alexander Long, Alan Blair, Herke van Hoof
- Abstract要約: 離散動作,画素ベース環境のための強化学習アルゴリズムであるNonparametric Approximation of Inter-Trace Return (NAIT)を提案する。
ATARI100kの26ゲーム版と57ゲーム版の両方においてNAITを実証的に評価した。
- 参考スコア(独自算出の注目度): 90.78178803486746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Nonparametric Approximation of Inter-Trace returns (NAIT), a
Reinforcement Learning algorithm for discrete action, pixel-based environments
that is both highly sample and computation efficient. NAIT is a lazy-learning
approach with an update that is equivalent to episodic Monte-Carlo on episode
completion, but that allows the stable incorporation of rewards while an
episode is ongoing. We make use of a fixed domain-agnostic representation,
simple distance based exploration and a proximity graph-based lookup to
facilitate extremely fast execution. We empirically evaluate NAIT on both the
26 and 57 game variants of ATARI100k where, despite its simplicity, it achieves
competitive performance in the online setting with greater than 100x speedup in
wall-time.
- Abstract(参考訳): 離散動作のための強化学習アルゴリズムであるNonparametric Approximation of Inter-Trace Return (NAIT)を提案する。
NAITは、エピソード完了時にエピソードのモンテカルロに匹敵するアップデートを伴う遅延学習アプローチであるが、エピソード進行中の報酬の安定した取り込みを可能にする。
固定されたドメインに依存しない表現、単純な距離に基づく探索、近接グラフに基づくルックアップを利用して、極めて高速な実行を実現する。
我々は、atari100kの26ゲームと57ゲームの両方でnaitを評価し、シンプルさにもかかわらず、ウォールタイムの100倍以上のスピードアップでオンライン環境での競争力を実現した。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Diffusion for Natural Image Matting [93.86689168212241]
DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。
まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。
第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
論文 参考訳(メタデータ) (2023-12-10T15:28:56Z) - Unsupervised Visual Representation Learning via Mutual Information
Regularized Assignment [31.00769817116771]
情報に触発された教師なし表現学習のための擬似ラベルアルゴリズムを提案する。
MIRAは、線形/k-NN評価や転送学習など、さまざまな下流タスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-04T06:49:42Z) - OFedQIT: Communication-Efficient Online Federated Learning via
Quantization and Intermittent Transmission [7.6058140480517356]
オンライン連合学習(OFL)は、分散ストリーミングデータから非線形関数(またはモデル)のシーケンスを協調的に学習する、有望なフレームワークである。
本稿では、量子化と断続伝送を用いた通信効率の高いOFLアルゴリズム(OFedQIT)を提案する。
分析の結果,OfedQITは優れた学習精度を維持しつつ,OfedAvgの欠点に対処できることがわかった。
論文 参考訳(メタデータ) (2022-05-13T07:46:43Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Pyramid Correlation based Deep Hough Voting for Visual Object Tracking [16.080776515556686]
我々は、ピラミド相関に基づくDeep Hough Voting(PCDHV用ショート)という、投票に基づく分類専用追跡アルゴリズムを提案する。
具体的には、埋め込み特徴に微細な局所構造と大域的空間的文脈を持たせるために、ピラミド相関モジュールを革新的に構築する。
精巧に設計されたDeep Hough Votingモジュールがさらに引き継ぎ、ピクセルの長距離依存を隅々まで知覚する。
論文 参考訳(メタデータ) (2021-10-15T10:37:00Z) - Topology-Guided Sampling for Fast and Accurate Community Detection [1.0609815608017064]
本稿では,ブロック分割の高速化を目的としたトポロジー誘導サンプリング手法を提案する。
また、高速化を犠牲にして、我々のアプローチの有効性を向上させるための学位ベースのしきい値設定手法も導入する。
以上の結果から,本手法はサンプリングなしでブロック分割を最大15倍高速化する可能性が示唆された。
論文 参考訳(メタデータ) (2021-08-15T03:20:10Z) - Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition [24.70946979449572]
学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。
我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。
さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
論文 参考訳(メタデータ) (2021-03-02T22:57:43Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。