論文の概要: ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.23871v1
- Date: Thu, 29 May 2025 11:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.590487
- Title: ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning
- Title(参考訳): ADG: 破壊・破壊・オフライン強化学習のための環境拡散誘導型データセット復元
- Authors: Zeyuan Liu, Zhihe Yang, Jiawei Xu, Rui Yang, Jiafei Lyu, Baoxiang Wang, Yunjian Xu, Xiu Li,
- Abstract要約: センサーや人間の入力から収集された実世界のデータセットは、ノイズやエラーを起こしやすい。
既存の手法は、腐敗した行動や報酬に対処する上で進歩してきたが、高次元状態空間における腐敗を扱うには不十分なままである。
本稿では、オフラインRLにおけるデータ破損に対処するための拡散モデルを用いた新しいアプローチであるAmbient Diffusion-Guided dataset Recovery (ADG)を提案する。
- 参考スコア(独自算出の注目度): 31.52561546227886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world datasets collected from sensors or human inputs are prone to noise and errors, posing significant challenges for applying offline reinforcement learning (RL). While existing methods have made progress in addressing corrupted actions and rewards, they remain insufficient for handling corruption in high-dimensional state spaces and for cases where multiple elements in the dataset are corrupted simultaneously. Diffusion models, known for their strong denoising capabilities, offer a promising direction for this problem-but their tendency to overfit noisy samples limits their direct applicability. To overcome this, we propose Ambient Diffusion-Guided Dataset Recovery (ADG), a novel approach that pioneers the use of diffusion models to tackle data corruption in offline RL. First, we introduce Ambient Denoising Diffusion Probabilistic Models (DDPM) from approximated distributions, which enable learning on partially corrupted datasets with theoretical guarantees. Second, we use the noise-prediction property of Ambient DDPM to distinguish between clean and corrupted data, and then use the clean subset to train a standard DDPM. Third, we employ the trained standard DDPM to refine the previously identified corrupted data, enhancing data quality for subsequent offline RL training. A notable strength of ADG is its versatility-it can be seamlessly integrated with any offline RL algorithm. Experiments on a range of benchmarks, including MuJoCo, Kitchen, and Adroit, demonstrate that ADG effectively mitigates the impact of corrupted data and improves the robustness of offline RL under various noise settings, achieving state-of-the-art results.
- Abstract(参考訳): センサや人間の入力から収集された実世界のデータセットはノイズやエラーの傾向があり、オフライン強化学習(RL)を適用する上で重要な課題となっている。
既存の手法は、破損したアクションや報酬に対処する作業を進めてきたが、高次元の状態空間における破損処理や、データセット内の複数の要素が同時に破損した場合には不十分なままである。
拡散モデル(Diffusion model)は、強いデノナイジング能力で知られており、この問題に対して有望な方向を提供するが、ノイズの多いサンプルを過度に適合させる傾向は、それらの直接的な適用性を制限している。
これを解決するために、オフラインRLにおけるデータ破損対策に拡散モデルを用いる新しいアプローチであるAmbient Diffusion-Guided Dataset Recovery (ADG)を提案する。
まず、近似分布からAmbient Denoising Diffusion Probabilistic Models (DDPM)を導入する。
次に、Ambient DDPMのノイズ予測特性を用いて、クリーンなデータと破損したデータを区別し、クリーンなサブセットを使用して標準DDPMをトレーニングする。
第3に、トレーニングされた標準DDPMを用いて、以前同定された不正なデータを洗練し、その後のオフラインRLトレーニングのデータ品質を向上させる。
ADGの顕著な強みは、その汎用性であり、オフラインのRLアルゴリズムとシームレスに統合できることである。
MuJoCo、Kitchen、Adroitなどのベンチマークの実験では、ADGが破損したデータの影響を効果的に軽減し、さまざまなノイズ設定の下でオフラインRLの堅牢性を改善し、最先端の結果を達成することが示されている。
関連論文リスト
- Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions [8.666879925570331]
実世界のオフラインデータセットは、しばしばセンサーの故障や悪意のある攻撃によるデータ破損にさらされる。
既存の手法は、破損したデータによって引き起こされる高い不確実性の下で堅牢なエージェントを学ぶのに苦労している。
オフラインRL(TRACER)に対するロバストな変分ベイズ推定法を提案する。
論文 参考訳(メタデータ) (2024-11-01T09:28:24Z) - Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling [35.2859997591196]
オフラインの強化学習は、データ駆動意思決定のスケーリングを約束する。
しかし、センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
我々の研究によると、データセットが制限された場合、先行研究はデータの破損の下では不十分である。
論文 参考訳(メタデータ) (2024-07-05T06:34:32Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Diffusion Denoising Process for Perceptron Bias in Out-of-distribution
Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。
DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T08:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。