Fugu-MT 論文翻訳(概要): ADR-BC: Adversarial Density Weighted Regression Behavior Cloning

論文の概要: ADR-BC: Adversarial Density Weighted Regression Behavior Cloning

arxiv url: http://arxiv.org/abs/2405.20351v1
Date: Tue, 28 May 2024 06:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 18:44:15.898555
Title: ADR-BC: Adversarial Density Weighted Regression Behavior Cloning
Title（参考訳）: ADR-BC: 対向密度重み付き回帰行動クローニング
Authors: Ziqi Zhang, Zifeng Zhuang, Donglin Wang, Jingzehua Xu, Miao Liu, Shuai Zhang,
Abstract要約: イミテーションラーニング(IL)法は、まず報酬やQ関数を定式化し、次にこの形の関数を強化学習フレームワーク内で使用して経験則を最適化する。本稿では,ADR-BCを提案する。 ADR-BCは、一段階の行動クローニングフレームワークとして、多段階のRLフレームワークに関連する累積バイアスを回避する。
参考スコア（独自算出の注目度）: 29.095342729527733
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Typically, traditional Imitation Learning (IL) methods first shape a reward or Q function and then use this shaped function within a reinforcement learning (RL) framework to optimize the empirical policy. However, if the shaped reward/Q function does not adequately represent the ground truth reward/Q function, updating the policy within a multi-step RL framework may result in cumulative bias, further impacting policy learning. Although utilizing behavior cloning (BC) to learn a policy by directly mimicking a few demonstrations in a single-step updating manner can avoid cumulative bias, BC tends to greedily imitate demonstrated actions, limiting its capacity to generalize to unseen state action pairs. To address these challenges, we propose ADR-BC, which aims to enhance behavior cloning through augmented density-based action support, optimizing the policy with this augmented support. Specifically, the objective of ADR-BC shares the similar physical meanings that matching expert distribution while diverging the sub-optimal distribution. Therefore, ADR-BC can achieve more robust expert distribution matching. Meanwhile, as a one-step behavior cloning framework, ADR-BC avoids the cumulative bias associated with multi-step RL frameworks. To validate the performance of ADR-BC, we conduct extensive experiments. Specifically, ADR-BC showcases a 10.5% improvement over the previous state-of-the-art (SOTA) generalized IL baseline, CEIL, across all tasks in the Gym-Mujoco domain. Additionally, it achieves an 89.5% improvement over Implicit Q Learning (IQL) using real rewards across all tasks in the Adroit and Kitchen domains. On the other hand, we conduct extensive ablations to further demonstrate the effectiveness of ADR-BC.
Abstract（参考訳）: 通常、従来のImitation Learning(IL)手法は、まず報酬やQ関数を定式化し、次にこの形の関数を強化学習(RL)フレームワークで使用して経験則を最適化する。しかし、形状の報酬/Q関数が基底真理報酬/Q関数を適切に表現していない場合、多段階のRLフレームワーク内でポリシーを更新すると累積バイアスが発生し、さらに政策学習に影響を及ぼす可能性がある。行動クローニング(BC)を利用して、一段階の更新方法でいくつかのデモを直接模倣することでポリシーを学ぶことは累積バイアスを避けることができるが、BCは、実証されたアクションを巧みに模倣し、目に見えない状態のアクションペアに一般化する能力を制限する傾向にある。これらの課題に対処するため,ADR-BCを提案する。特に、ADR-BCの目的は、準最適分布を分岐しながら専門家分布と一致するような物理的意味を共有することである。したがって、ADR-BCはより堅牢な専門家分布マッチングを実現することができる。一方、ADR-BCは1段階の行動クローニングフレームワークであり、多段階のRLフレームワークに関連する累積バイアスを避けている。 ADR-BCの性能を検証するため,我々は広範囲な実験を行った。具体的には、ADR-BCは、Gym-Mujocoドメインのすべてのタスクに対して、以前の最先端(SOTA)の一般化されたILベースラインであるCEILよりも10.5%改善されている。さらに、AdroitドメインとKitchenドメインの全タスクの本当の報酬を使用して、Implicit Q Learning(IQL)よりも89.5%改善されている。一方,ADR-BCの有効性をさらに示すため,広範囲にわたる改善を行った。

関連論文リスト

Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization [23.817251267022847]
本稿では,過度な最適化問題を緩和するために,行動対応型政策最適化(BSPO)手法を提案する。 BSPOは強化学習過程におけるOOD反応の発生を減少させる。実験の結果,BSPOは報酬過度最適化の防止においてベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-23T16:20:59Z)
Distributionally Robust Reinforcement Learning with Human Feedback [13.509499718691016]
大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
論文参考訳（メタデータ） (2025-03-01T15:43:39Z)
Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文参考訳（メタデータ） (2024-10-30T06:28:09Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
ビヘイビアクローン(BC)は印象的な機能を実現しているが、アセンブリのようなオブジェクトの正確な整合と挿入を必要とするタスクに対する信頼性の高いポリシーを学ぶには、模倣が不十分である。 ResiP(Residual for Precise Manipulation)は、RLで訓練された完全閉ループ残差ポリシで、凍結したチャンクされたBCモデルを拡張することで、これらの課題をサイドステップで進める。高精度な操作タスクの評価は、BC法と直接RL微調整によるResiPの強い性能を示す。
論文参考訳（メタデータ） (2024-07-23T17:44:54Z)
AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文参考訳（メタデータ） (2023-11-03T18:56:48Z)
Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文参考訳（メタデータ） (2023-05-25T21:54:22Z)
How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文参考訳（メタデータ） (2023-02-15T03:53:26Z)
Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。 D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-01-31T13:18:33Z)
ABC: Adversarial Behavioral Cloning for Offline Mode-Seeking Imitation Learning [48.033516430071494]
本稿では,GAN(Generative Adversarial Network)トレーニングの要素を取り入れて,モード探索行動を示す行動クローニング(BC)の修正版を紹介する。我々は,DeepMind Control スイートから Hopper をベースとした玩具ドメインとドメイン上でABC を評価し,モード探索により標準 BC よりも優れていることを示す。
論文参考訳（メタデータ） (2022-11-08T04:54:54Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Where is the Grass Greener? Revisiting Generalized Policy Iteration for Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文参考訳（メタデータ） (2021-07-03T11:00:56Z)
Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文参考訳（メタデータ） (2021-05-28T06:59:49Z)
Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文参考訳（メタデータ） (2020-07-16T09:25:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。