論文の概要: Greedy Policy Search: A Simple Baseline for Learnable Test-Time
Augmentation
- arxiv url: http://arxiv.org/abs/2002.09103v2
- Date: Sat, 20 Jun 2020 13:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:16:23.822052
- Title: Greedy Policy Search: A Simple Baseline for Learnable Test-Time
Augmentation
- Title(参考訳): Greedy Policy Search: 学習可能なテスト時間拡張のためのシンプルなベースライン
- Authors: Dmitry Molchanov, Alexander Lyzhov, Yuliya Molchanova, Arsenii
Ashukha, Dmitry Vetrov
- Abstract要約: 我々は,テスト時間拡張のポリシーを学習するための簡易かつ高性能な方法として,greedy Policy Search (GPS)を導入した。
画像分類問題においてGPSで学習した拡張ポリシーが優れた予測性能を実現することを実証する。
- 参考スコア(独自算出の注目度): 65.92151529708036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time data augmentation$-$averaging the predictions of a machine learning
model across multiple augmented samples of data$-$is a widely used technique
that improves the predictive performance. While many advanced learnable data
augmentation techniques have emerged in recent years, they are focused on the
training phase. Such techniques are not necessarily optimal for test-time
augmentation and can be outperformed by a policy consisting of simple crops and
flips. The primary goal of this paper is to demonstrate that test-time
augmentation policies can be successfully learned too. We introduce greedy
policy search (GPS), a simple but high-performing method for learning a policy
of test-time augmentation. We demonstrate that augmentation policies learned
with GPS achieve superior predictive performance on image classification
problems, provide better in-domain uncertainty estimation, and improve the
robustness to domain shift.
- Abstract(参考訳): テスト時間データ拡張$-$ 機械学習モデルの予測を複数の拡張されたデータサンプルに平均する$-$は、予測性能を改善する広く使われているテクニックである。
近年、多くの高度な学習可能なデータ拡張技術が登場しているが、それらはトレーニングフェーズに焦点を当てている。
このようなテクニックは必ずしもテスト時間拡張に最適というわけではなく、単純な作物とフリップからなるポリシーにより性能が向上する。
本稿の主目的は,テスト時の拡張ポリシーがうまく学習できることを実証することである。
我々は,テスト時間強化の方針を学ぶための単純かつハイパフォーマンスな手法である greedy policy search (gps) を提案する。
我々は,GPSで学習した拡張ポリシーが画像分類問題において優れた予測性能を実現し,ドメイン内不確実性評価の精度を高め,ドメインシフトに対する堅牢性を向上させることを実証した。
関連論文リスト
- Enabling Efficient, Reliable Real-World Reinforcement Learning with
Approximate Physics-Based Models [10.472792899267365]
我々は,実世界のデータを用いたロボット学習のための,効率的かつ信頼性の高いポリシー最適化戦略の開発に重点を置いている。
本稿では,新しい政策勾配に基づく政策最適化フレームワークを提案する。
提案手法では,実世界のデータの数分で,正確な制御戦略を確実に学習できることが示されている。
論文 参考訳(メタデータ) (2023-07-16T22:36:36Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Imbalanced Classification In Faulty Turbine Data: New Proximal Policy
Optimization [0.5735035463793008]
本稿では,強化学習に基づく欠陥検出のためのフレームワークと,近似ポリシ最適化と呼ばれるポリシーを提案する。
修正されたプロキシポリシー最適化を使用することで、パフォーマンスを高め、データの不均衡を克服し、将来の障害を予測することができます。
論文 参考訳(メタデータ) (2023-01-10T16:03:25Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Adversarial Auto-Augment with Label Preservation: A Representation
Learning Principle Guided Approach [95.74102207187545]
本研究では,事前自由な自律的データ拡張の目的が表現学習の原則から導出可能であることを示す。
そこで我々は,既存の手法にシームレスに最適化し,シームレスに統合できる目的に対して,実用的なサロゲートを提案する。
論文 参考訳(メタデータ) (2022-11-02T02:02:51Z) - Augmentation Learning for Semi-Supervised Classification [13.519613713213277]
本稿では,特定のデータセットに対して最も効果的なデータ拡張ポリシーを自動選択する半教師付き学習手法を提案する。
ImageNet以外のデータセットへの拡張にポリシー学習をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-08-03T10:06:51Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。