論文の概要: rQdia: Regularizing Q-Value Distributions With Image Augmentation
- arxiv url: http://arxiv.org/abs/2506.21367v1
- Date: Thu, 26 Jun 2025 15:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.158486
- Title: rQdia: Regularizing Q-Value Distributions With Image Augmentation
- Title(参考訳): rQdia: イメージ拡張によるQ-Valueディストリビューションの正規化
- Authors: Sam Lerman, Jing Bi,
- Abstract要約: rQdiaは、ピクセルベースの深層強化学習において、強調画像でQ値分布を正規化する。
RQdiaは,MuJoCo Continuous Control Suiteの9/12タスクと10/12タスクのDrQとSACを,18/26 Atari Arcade環境のData-Efficient Rainbowでそれぞれ強化する。
- 参考スコア(独自算出の注目度): 8.85766456731772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: rQdia regularizes Q-value distributions with augmented images in pixel-based deep reinforcement learning. With a simple auxiliary loss, that equalizes these distributions via MSE, rQdia boosts DrQ and SAC on 9/12 and 10/12 tasks respectively in the MuJoCo Continuous Control Suite from pixels, and Data-Efficient Rainbow on 18/26 Atari Arcade environments. Gains are measured in both sample efficiency and longer-term training. Moreover, the addition of rQdia finally propels model-free continuous control from pixels over the state encoding baseline.
- Abstract(参考訳): rQdiaは、ピクセルベースの深層強化学習において、強調画像でQ値分布を正規化する。
単純な補助的損失により、MSEを介してこれらのディストリビューションを等化することにより、rQdiaは、MuJoCo Continuous Control Suiteの9/12タスクと10/12タスクでDrQとSACを、Atari Arcadeの18/26環境でData-Efficient Rainbowでそれぞれ強化する。
利得はサンプル効率と長期トレーニングの両方で測定される。
さらに、rQdiaの追加は、最終的に、ステートエンコーディングベースライン上のピクセルからのモデルフリー連続制御を促進する。
関連論文リスト
- DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Continuous Control Reinforcement Learning: Distributed Distributional DrQ Algorithms [0.0]
分散分散分散DrQ(Distributed Distributional DrQ)は、エージェントの状態と観測に基づく連続的な制御タスクのためのモデルフリーで非政治的なRLアルゴリズムである。
DrQ-v2はDDPGをバックボーンとして使用し、様々な連続制御タスクで性能を向上する。
論文 参考訳(メタデータ) (2024-04-16T15:18:40Z) - SPQR: Controlling Q-ensemble Independence with Spiked Random Model for
Reinforcement Learning [4.671615537573023]
過大評価バイアスを軽減することは、深い強化学習にとって重要な課題である。
本稿では,強化学習のためのWishart Q-ensemble independent regularization (SPQR)を提案する。
我々は複数のオンラインおよびオフラインアンサンブルQ-ラーニングアルゴリズムにSPQRを実装している。
論文 参考訳(メタデータ) (2024-01-06T06:39:06Z) - Distribution-Flexible Subset Quantization for Post-Quantizing
Super-Resolution Networks [68.83451203841624]
本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。
DFSQは活性化のチャネルワイド正規化を行い、分布フレキシブルなサブセット量子化(SQ)を適用する
6ビットの量子化と8ビットの量子化では完全精度に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか生じない。
論文 参考訳(メタデータ) (2023-05-10T04:19:11Z) - IGN : Implicit Generative Networks [7.389904909829063]
我々は分布強化学習の最近の進歩を構築し、IQNに基づくモデルの最先端の分布変種を与える。
ALEにおける57のAtari 2600ゲームにおいて,ベースラインデータセットの性能向上を実証した。
また,このアルゴリズムを用いて,アタリゲームにおけるリスクに敏感なポリシーの訓練性能を,ポリシの最適化と評価で示す。
論文 参考訳(メタデータ) (2022-06-13T00:02:23Z) - QDrop: Randomly Dropping Quantization for Extremely Low-bit
Post-Training Quantization [54.44028700760694]
ポストトレーニング量子化(PTQ)は、長時間のリトレーニングなしに効率的なニューラルネットワークを生成するために多くの注目を集めている。
本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを先駆的に確認する。
結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに減少させる。
論文 参考訳(メタデータ) (2022-03-11T04:01:53Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Mastering Visual Continuous Control: Improved Data-Augmented
Reinforcement Learning [114.35801511501639]
視覚連続制御のためのモデルなし強化学習アルゴリズムDrQ-v2を提案する。
DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQの上に構築されている。
特にDrQ-v2は、ピクセル観察から直接、複雑なヒューマノイドの移動タスクを解くことができる。
論文 参考訳(メタデータ) (2021-07-20T17:29:13Z) - Qgraph-bounded Q-learning: Stabilizing Model-Free Off-Policy Deep
Reinforcement Learning [33.31762612175859]
アートモデルのない非政治的な深層強化学習の状況では、過去の経験を記憶し、すべてのネットワーク更新を導出するためにリプレイメモリが使用される。
データグラフでこれらの遷移を表現し、その構造をソフトな分散にリンクする。
単純化された MDP における各遷移に対する Q-値が、元の連続 Q-ラーニング問題における同じ遷移に対する Q-値の低い境界であることを示す。
論文 参考訳(メタデータ) (2020-07-15T10:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。