論文の概要: Unsupervised Salient Patch Selection for Data-Efficient Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2402.03329v1
- Date: Wed, 10 Jan 2024 11:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 15:36:36.430933
- Title: Unsupervised Salient Patch Selection for Data-Efficient Reinforcement
Learning
- Title(参考訳): データ効率強化学習のための教師なしサルエントパッチ選択
- Authors: Zhaohui Jiang, Paul Weng
- Abstract要約: 入力画像から重要なパッチを自動的に抽出するSPIRLという新しい手法を提案する。
SPIRLは、ランダムにサンプリングされたパッチからイメージを再構成するために、自己教師付きで事前訓練されたビジョントランスフォーマーモデルに基づいている。
我々は,Atariゲーム上でのSPIRLの有効性を実証的に検証し,そのデータ効率を関連する最先端手法に対して検証する。
- 参考スコア(独自算出の注目度): 5.531613273544251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve the sample efficiency of vision-based deep reinforcement learning
(RL), we propose a novel method, called SPIRL, to automatically extract
important patches from input images. Following Masked Auto-Encoders, SPIRL is
based on Vision Transformer models pre-trained in a self-supervised fashion to
reconstruct images from randomly-sampled patches. These pre-trained models can
then be exploited to detect and select salient patches, defined as hard to
reconstruct from neighboring patches. In RL, the SPIRL agent processes selected
salient patches via an attention module. We empirically validate SPIRL on Atari
games to test its data-efficiency against relevant state-of-the-art methods,
including some traditional model-based methods and keypoint-based models. In
addition, we analyze our model's interpretability capabilities.
- Abstract(参考訳): 視覚に基づく深部強化学習(RL)のサンプル効率を向上させるために,入力画像から重要なパッチを自動的に抽出するSPIRLという新しい手法を提案する。
Masked Auto-Encodersに続いて、SPIRLはランダムにサンプリングされたパッチからイメージを再構築するために、自己教師付きで事前訓練されたビジョントランスフォーマーモデルに基づいている。
これらの事前訓練されたモデルは、近隣のパッチから再構築が難しいと定義されたサルエントパッチの検出と選択に利用することができる。
RLでは、SPIRLエージェントはアテンションモジュールを介して選択されたサリアンパッチを処理する。
我々は,従来のモデルベース手法やキーポイントベースモデルを含む,関連する最先端手法に対してデータ効率をテストするために,Atariゲーム上でSPIRLを実証的に検証する。
さらに,モデルの解釈可能性についても分析する。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - PAME: Self-Supervised Masked Autoencoder for No-Reference Point Cloud Quality Assessment [34.256276774430575]
no-reference point cloud quality Assessment (NR-PCQA) は、参照なしでポイントクラウドの知覚的品質を自動的に予測することを目的としている。
本稿では,マスク付きオートエンコーダ(PAME)を用いた自己教師型事前学習フレームワークを提案する。
提案手法は,予測精度と一般化性の観点から,最新のNR-PCQA法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:01:33Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - On-the-Fly Guidance Training for Medical Image Registration [14.309599960641242]
本研究は,既存の学習ベース画像登録モデルを改善するための新しいトレーニングフレームワークであるOn-the-Fly Guidance(OFG)を紹介する。
本手法では,ラベル付きデータを必要としない登録モデルをトレーニングするための教師付き手法を提案する。
提案手法は,複数のベンチマークデータセットおよび先行モデルでテストされ,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-08-29T11:12:53Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - PrIU: A Provenance-Based Approach for Incrementally Updating Regression
Models [9.496524884855559]
本稿では,予測精度を犠牲にすることなく,モデルパラメータを漸進的に更新する手法PrIUを提案する。
漸進的に更新されたモデルパラメータの正しさと収束性を証明し、実験的に検証する。
実験結果から, PrIU-optはスクラッチからモデルを再トレーニングするのに対して, 非常に類似したモデルを得るよりも, 最大2桁のスピードアップを達成できることがわかった。
論文 参考訳(メタデータ) (2020-02-26T21:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。