Fugu-MT 論文翻訳(概要): Domain Adaptation for Offline Reinforcement Learning with Limited Samples

論文の概要: Domain Adaptation for Offline Reinforcement Learning with Limited Samples

arxiv url: http://arxiv.org/abs/2408.12136v1
Date: Thu, 22 Aug 2024 05:38:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 15:03:23.113022
Title: Domain Adaptation for Offline Reinforcement Learning with Limited Samples
Title（参考訳）: 限定サンプルを用いたオフライン強化学習のためのドメイン適応
Authors: Weiqin Chen, Sandipan Mishra, Santiago Paternain,
Abstract要約: オフライン強化学習は、静的ターゲットデータセットから効果的なポリシーを学ぶ。最先端(SOTA)のオフラインRLアルゴリズムが有望であるにもかかわらず、ターゲットデータセットの品質に強く依存している。本稿では,各データセットに割り当てられた重みがオフラインRLの性能に与える影響を理論的・実験的に検討した最初のフレームワークを提案する。
参考スコア（独自算出の注目度）: 2.3674123304219816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline reinforcement learning (RL) learns effective policies from a static target dataset. Despite state-of-the-art (SOTA) offline RL algorithms being promising, they highly rely on the quality of the target dataset. The performance of SOTA algorithms can degrade in scenarios with limited samples in the target dataset, which is often the case in real-world applications. To address this issue, domain adaptation that leverages auxiliary samples from related source datasets (such as simulators) can be beneficial. In this context, determining the optimal way to trade off the source and target datasets remains a critical challenge in offline RL. To the best of our knowledge, this paper proposes the first framework that theoretically and experimentally explores how the weight assigned to each dataset affects the performance of offline RL. We establish the performance bounds and convergence neighborhood of our framework, both of which depend on the selection of the weight. Furthermore, we identify the existence of an optimal weight for balancing the two datasets. All theoretical guarantees and optimal weight depend on the quality of the source dataset and the size of the target dataset. Our empirical results on the well-known Procgen Benchmark substantiate our theoretical contributions.
Abstract（参考訳）: オフライン強化学習(RL)は、静的ターゲットデータセットから効果的なポリシーを学習する。最先端(SOTA)のオフラインRLアルゴリズムが有望であるにもかかわらず、ターゲットデータセットの品質に強く依存している。 SOTAアルゴリズムの性能は、ターゲットデータセット内の限られたサンプルを持つシナリオで劣化する可能性がある。この問題に対処するために、関連するソースデータセット(シミュレータなど)の補助的なサンプルを活用するドメイン適応が有用である。この文脈では、ソースとターゲットデータセットをトレードオフする最適な方法を決定することは、オフラインRLにおいて重要な課題である。本稿では,各データセットに割り当てられた重みがオフラインRLの性能に与える影響を理論的,実験的に検討する最初のフレームワークを提案する。我々はフレームワークの性能境界と収束近傍を確立し、どちらもウェイトの選択に依存する。さらに,2つのデータセットのバランスをとるために最適な重みが存在することも確認した。すべての理論的保証と最適なウェイトは、ソースデータセットの品質とターゲットデータセットのサイズに依存する。有名な Procgen Benchmark に関する実証的な結果は、我々の理論的な貢献を裏付けるものである。

関連論文リスト

Formal Bayesian Transfer Learning via the Total Risk Prior [1.8570591025615457]
我々は、前者の特定のインスタンス化が、変換座標系におけるベイズラッソにどのように導かれるかを示す。また、最近提案されたミニマックス周波数変換学習技術は、我々のモデルに対するPosterioriアプローチの近似的な最大値と見なせることを示した。
論文参考訳（メタデータ） (2025-07-31T17:55:16Z)
When few labeled target data suffice: a theory of semi-supervised domain adaptation via fine-tuning from multiple adaptive starts [5.839411310096219]
半教師付きドメイン適応(SSDA)は、限られたラベル付きターゲットデータを用いて、ターゲット領域で高い予測性能を達成することを目的としている。本研究では,構造因果モデル(SCM)に基づく理論的枠組みを構築し,ラベル付き対象データに制限がある場合のSSDA手法の性能解析と定量化を可能にする。本稿では,複数の出発点からUDAモデルを微調整し,最適性能を選択するマルチ・アダプティブ・スタート・ファイン・チューニング(MASFT)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-19T15:18:28Z)
Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-06-24T14:08:36Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文参考訳（メタデータ） (2024-04-30T08:16:52Z)
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-06T17:58:14Z)
Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data [28.445166861907495]
我々は,TMISオフライン政策評価(OPE)推定器の理論を開発する。我々は、その推定誤差に基づいて高確率、インスタンス依存境界を導出する。また,適応環境での極小最適オフライン学習を復元する。
論文参考訳（メタデータ） (2023-06-24T21:48:28Z)
Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文参考訳（メタデータ） (2023-06-22T17:58:02Z)
Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文参考訳（メタデータ） (2023-05-22T03:31:03Z)
Self-training through Classifier Disagreement for Cross-Domain Opinion Target Extraction [62.41511766918932]
オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は意見マイニングの基本的な課題である。最近の研究は、現実世界のシナリオでよく見られるクロスドメインのOTEに焦点を当てている。そこで本稿では,ドメイン固有の教師と学生のネットワークから出力されるモデルが未学習のターゲットデータと一致しない対象サンプルを選択するためのSSLアプローチを提案する。
論文参考訳（メタデータ） (2023-02-28T16:31:17Z)
Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文参考訳（メタデータ） (2022-02-14T01:31:46Z)
Understanding the Effects of Dataset Characteristics on Offline Reinforcement Learning [4.819336169151637]
オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
論文参考訳（メタデータ） (2021-11-08T18:48:43Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文参考訳（メタデータ） (2020-12-30T09:06:57Z)
D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文参考訳（メタデータ） (2020-04-15T17:18:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。