Fugu-MT 論文翻訳(概要): Provably Efficient Offline Reinforcement Learning with Perturbed Data Sources

論文の概要: Provably Efficient Offline Reinforcement Learning with Perturbed Data Sources

arxiv url: http://arxiv.org/abs/2306.08364v1
Date: Wed, 14 Jun 2023 08:53:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 19:37:01.789083
Title: Provably Efficient Offline Reinforcement Learning with Perturbed Data Sources
Title（参考訳）: 摂動データを用いた高能率オフライン強化学習
Authors: Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang
Abstract要約: オフライン強化学習(RL)に関する既存の理論的研究は、主にターゲットタスクから直接サンプリングされたデータセットを考察している。しかし実際には、データは複数の異種であるが関連する情報源から来ることが多い。この研究は、ターゲットタスクのランダムな摂動バージョンから収集される複数のデータセットで、オフラインRLを厳格に理解することを目的としている。
参考スコア（独自算出の注目度）: 23.000116974718
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing theoretical studies on offline reinforcement learning (RL) mostly consider a dataset sampled directly from the target task. In practice, however, data often come from several heterogeneous but related sources. Motivated by this gap, this work aims at rigorously understanding offline RL with multiple datasets that are collected from randomly perturbed versions of the target task instead of from itself. An information-theoretic lower bound is derived, which reveals a necessary requirement on the number of involved sources in addition to that on the number of data samples. Then, a novel HetPEVI algorithm is proposed, which simultaneously considers the sample uncertainties from a finite number of data samples per data source and the source uncertainties due to a finite number of available data sources. Theoretical analyses demonstrate that HetPEVI can solve the target task as long as the data sources collectively provide a good data coverage. Moreover, HetPEVI is demonstrated to be optimal up to a polynomial factor of the horizon length. Finally, the study is extended to offline Markov games and offline robust RL, which demonstrates the generality of the proposed designs and theoretical analyses.
Abstract（参考訳）: オフライン強化学習(rl)に関する既存の理論的研究は、ターゲットタスクから直接サンプリングされたデータセットをほとんど考慮している。しかし実際には、データは複数の異種だが関連する情報源から来ることが多い。このギャップによって動機づけられたこの研究は、ターゲットタスクのランダムな摂動バージョンから収集される複数のデータセットでオフラインRLを厳格に理解することを目的としている。情報理論の下限が導出され、データサンプルの数に加えて、関係するソースの数に関する必要条件が明らかにされる。次に,データソース毎に有限個のデータサンプルからのサンプル不確実性と,利用可能なデータソースの有限個数によるソース不確実性を同時に考慮した,新しいhetpeviアルゴリズムを提案する。理論的解析により、HetPEVIは、データソースが優れたデータカバレッジを提供する限り、ターゲットタスクを解決できることを示した。さらに、HetPEVIは水平長の多項式係数まで最適であることが示されている。最後に、この研究はオフラインのマルコフゲームとオフラインのロバストなRLに拡張され、提案された設計の一般化と理論的解析を示す。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-06-24T14:08:36Z)
A Theoretical Framework for Data Efficient Multi-Source Transfer Learning Based on Cramér-Rao Bound [16.49737340580437]
対象モデルを共同でトレーニングするために、各ソースタスクから必要なソースサンプルの最適な量は何か? 具体的には、クロスエントロピー損失と整合する一般化誤差尺度を導入し、Cram'er-Rao界に基づいて最小化して、各ソースタスクの最適な転送量を決定する。我々はアーキテクチャに依存しないデータ効率のアルゴリズムOTQMSを開発し、深層多元移動学習モデルの学習のための理論的結果を実装した。
論文参考訳（メタデータ） (2025-02-06T17:32:49Z)
Domain Adaptation for Offline Reinforcement Learning with Limited Samples [2.3674123304219816]
オフライン強化学習は、静的ターゲットデータセットから効果的なポリシーを学ぶ。最先端(SOTA)のオフラインRLアルゴリズムが有望であるにもかかわらず、ターゲットデータセットの品質に強く依存している。本稿では,各データセットに割り当てられた重みがオフラインRLの性能に与える影響を理論的・実験的に検討した最初のフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-22T05:38:48Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Sparse outlier-robust PCA for multi-source data [2.3226893628361687]
そこで本研究では,重要な特徴と局所的なソース固有パターンを同時に選択する新しいPCA手法を提案する。我々は,グローバルな局所構造的空間パターンに対応するペナルティを持つ正規化問題を開発する。本稿では,乗算器の交互方向法による提案手法の効率的な実装について述べる。
論文参考訳（メタデータ） (2024-07-23T08:55:03Z)
Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文参考訳（メタデータ） (2024-04-30T08:16:52Z)
Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文参考訳（メタデータ） (2024-03-19T18:57:53Z)
Analysis and Optimization of Wireless Federated Learning with Data Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-04T04:18:01Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文参考訳（メタデータ） (2022-08-10T18:24:23Z)
Source data selection for out-of-domain generalization [0.76146285961466]
ソースデータセットの貧弱な選択は、ターゲットのパフォーマンスを低下させる可能性がある。マルチバンド理論とランダム探索に基づく2つのソース選択手法を提案する。提案手法は, 利用可能なサンプルのランダムな選択よりも優れた再重み付けされたサブサンプルの存在を診断するものであるとみなすことができる。
論文参考訳（メタデータ） (2022-02-04T14:37:31Z)
D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文参考訳（メタデータ） (2020-04-15T17:18:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。