論文の概要: Improving Generalization in Visual Reinforcement Learning via
Conflict-aware Gradient Agreement Augmentation
- arxiv url: http://arxiv.org/abs/2308.01194v1
- Date: Wed, 2 Aug 2023 15:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:30:13.275812
- Title: Improving Generalization in Visual Reinforcement Learning via
Conflict-aware Gradient Agreement Augmentation
- Title(参考訳): 競合認識型グラディエント合意強化による視覚強化学習の一般化
- Authors: Siao Liu, Zhaoyu Chen, Yang Liu, Yuzheng Wang, Dingkang Yang, Zhile
Zhao, Ziqing Zhou, Xie Yi, Wei Li, Wenqiang Zhang, Zhongxue Gan
- Abstract要約: コンフリクト・アウェア・グラディエント・コンセンサス・アジュメンテーション(CG2A)という,一般的な政策勾配最適化フレームワークを提案する。
CG2Aは視覚的RLアルゴリズムの一般化性能とサンプル効率を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 14.055897067012205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning a policy with great generalization to unseen environments remains
challenging but critical in visual reinforcement learning. Despite the success
of augmentation combination in the supervised learning generalization, naively
applying it to visual RL algorithms may damage the training efficiency,
suffering from serve performance degradation. In this paper, we first conduct
qualitative analysis and illuminate the main causes: (i) high-variance gradient
magnitudes and (ii) gradient conflicts existed in various augmentation methods.
To alleviate these issues, we propose a general policy gradient optimization
framework, named Conflict-aware Gradient Agreement Augmentation (CG2A), and
better integrate augmentation combination into visual RL algorithms to address
the generalization bias. In particular, CG2A develops a Gradient Agreement
Solver to adaptively balance the varying gradient magnitudes, and introduces a
Soft Gradient Surgery strategy to alleviate the gradient conflicts. Extensive
experiments demonstrate that CG2A significantly improves the generalization
performance and sample efficiency of visual RL algorithms.
- Abstract(参考訳): 目に見えない環境への大きな一般化を伴うポリシーの学習は、視覚強化学習において依然として挑戦的だが批判的である。
教師付き学習一般化における強化組み合わせの成功にもかかわらず、視覚的RLアルゴリズムに鼻で適用することで、性能劣化に悩まされる訓練効率を損なう可能性がある。
本稿では,まず質的分析を行い,主な原因を明らかにする。
(i)高分散勾配等級及び
(ii)様々な増補法に勾配衝突があった。
これらの問題を緩和するために,コンフリクト・アウェア・グラデーション・アグリゲーション・アグリゲーション(cg2a)と呼ばれる一般的なポリシーグラデーション最適化フレームワークを提案する。
特にcg2aは、変化する勾配等級を適応的にバランスさせる勾配一致ソルバを開発し、勾配衝突を緩和するためのソフト勾配手術戦略を導入する。
CG2Aは視覚的RLアルゴリズムの一般化性能とサンプル効率を大幅に改善することを示した。
関連論文リスト
- Dual Adversarial Perturbators Generate rich Views for Recommendation [16.284670207195056]
AvoGCLは、グラフ構造に逆行訓練を適用し、摂動を埋め込むことでカリキュラム学習をエミュレートする。
3つの実世界のデータセットの実験では、AvoGCLが最先端の競合より大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-26T15:19:35Z) - Dual-Channel Latent Factor Analysis Enhanced Graph Contrastive Learning for Recommendation [2.9449497738046078]
グラフニューラルネットワーク(GNN)は、推薦システムのための強力な学習方法である。
近年,コントラスト学習とGNNの統合は,レコメンデータシステムにおいて顕著な性能を示している。
本研究は,LFA-GCLと呼ばれる潜在因子分析(LFA)強化GCLアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-09T03:24:48Z) - Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks [5.507301894089302]
本稿では、勾配ベクトルの和正規化を係数として、ディープニューラルネットワークの新しい最適化手法を研究するための最初の試みである。
提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。
論文 参考訳(メタデータ) (2024-07-24T02:23:18Z) - Efficient Real-world Image Super-Resolution Via Adaptive Directional Gradient Convolution [80.85121353651554]
畳み込みカーネル内でのカーネル単位の微分演算を導入し、学習可能な方向勾配畳み込みを開発する。
これらの畳み込みは、新しい線形重み付け機構と平行に統合され、適応方向勾配畳み込み(DGConv)を形成する。
さらに,適応情報相互作用ブロック(AIIBlock)を設計し,テクスチャとコントラストの強化のバランスをとるとともに,相互依存性を慎重に検討し,単純な積み重ねによるリアルSRのためのDGPNetを作成する。
論文 参考訳(メタデータ) (2024-05-11T14:21:40Z) - Promoting Generalization for Exact Solvers via Adversarial Instance
Augmentation [62.738582127114704]
Adarは、模倣学習ベース(ILベース)と強化学習ベース(RLベース)の両方の一般化を理解し、改善するためのフレームワークである。
論文 参考訳(メタデータ) (2023-10-22T03:15:36Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Adapting Step-size: A Unified Perspective to Analyze and Improve
Gradient-based Methods for Adversarial Attacks [21.16546620434816]
勾配に基づく逆学習手法の統一的理論的解釈を提供する。
これらのアルゴリズムのそれぞれが、実際には、元の勾配法の特定の再構成であることを示す。
正規勾配法に基づく適応勾配に基づくアルゴリズムの幅広いクラスを示す。
論文 参考訳(メタデータ) (2023-01-27T06:17:51Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。