論文の概要: XQCfD: Accelerating Fast Actor-Critic Algorithms with Prior Data and Prior Policies
- arxiv url: http://arxiv.org/abs/2605.10734v1
- Date: Mon, 11 May 2026 15:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.948021
- Title: XQCfD: Accelerating Fast Actor-Critic Algorithms with Prior Data and Prior Policies
- Title(参考訳): XQCfD: 事前データと事前ポリシによる高速アクタクリティカルアルゴリズムの高速化
- Authors: Daniel Palenicek, Florian Vogt, Joe Watson, Ingmar Posner, Danica Kragic, Jan Peters,
- Abstract要約: ロボット強化学習の一般的な実践は、サンプル効率を改善するために追加のデータを統合することである。
既存のアルゴリズムの設計は、この設定で可能なサンプル効率を達成できないことを示す。
本稿では、サンプル効率のよいXQCアクター批判を拡張して、事前訓練されたポリシーを付加したリプレイバッファを用いて実演から学習するXQCfDを提案する。
- 参考スコア(独自算出の注目度): 33.275639196053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For reinforcement learning in the real world online exploration is expensive A common practice in robotic reinforcement learning is to incorporate additional data to improve sample efficiency Expert demonstration data is often crucial for solving hard exploration tasks with sparse rewards While prior data is used to augment experience and pretrain models we show that the design of existing algorithms fails to achieve the sample efficiency that is possible in this setting due to a failure to use pretrained policies effectively We propose XQCfD which extends the sample-efficient XQC actor-critic to learn from demonstrations using augmented replay buffers pretrained policies and stationary policy architectures designed to avoid rapidly unlearning the strong initial policy like prior works We show our stationary network architecture enables policy improvement out-of-distribution better than standard network architectures due to its higher entropy predictions XQCfD achieves state of the art performance across a range of complex manipulation tasks with sparse rewards from the popular Adroit Robomimic and MimicGen benchmarks -- notably with a low update-to-data ratio and no ensemble networks
- Abstract(参考訳): ロボット強化学習の一般的な実践は、サンプル効率を改善するために追加データを統合することである 専門家による実証データは、しばしばスパース報酬でハード探索タスクを解くのに不可欠である 事前のデータは、経験と事前訓練モデルを拡張するために使用される 既存のアルゴリズムの設計が、この設定で可能なサンプル効率を達成するのに失敗している 事前訓練されたポリシーを効果的に使用できないために、この設定で可能なサンプル効率を達成できない サンプル効率のよいXQCfDを提案する。
関連論文リスト
- Data-dependent Exploration for Online Reinforcement Learning from Human Feedback [50.34161049551627]
人的フィードバックからのオンライン強化学習(RLHF)は、トレーニング中に新たな嗜好フィードバックを継続的に収集することにより、大規模言語モデル(LLM)を整合させるための有望なパラダイムとして登場した。
既存の調査戦略は、しばしば政治上の期待を通じてボーナスを導き出すが、これは訓練中に利用できる限られた歴史的嗜好データから確実に見積もることが難しい。
高不確実性領域に対する余分な不確実性ボーナスを構築するために、履歴データを活用するシンプルでスケーラブルなデータ依存型選好最適化法(DEPO)を提案する。
論文 参考訳(メタデータ) (2026-05-06T03:56:45Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文 参考訳(メタデータ) (2026-01-19T02:18:45Z) - Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning [51.07663354001582]
ディープニューラルネットワークは破滅的な忘れ込みに悩まされ、新しいタスクのトレーニング後に以前のタスクのパフォーマンスが低下する。
本稿では,メモリベースの手法と正規化手法の交わりに着目し,この問題に対処する新しいアプローチを提案する。
我々は、メモリベース連続学習法において、情報最大化(IM)正則化と呼ばれる正規化戦略を定式化する。
論文 参考訳(メタデータ) (2025-12-01T15:56:00Z) - Using Non-Expert Data to Robustify Imitation Learning via Offline Reinforcement Learning [21.705096559151286]
オフライン強化学習は、非専門的なデータを利用して模倣学習ポリシーの性能を向上させることができることを示す。
提案手法は, オフラインRLにより拡張された模倣アルゴリズムにより, タスクを頑健に解決できることを示す。
論文 参考訳(メタデータ) (2025-10-22T11:43:39Z) - Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization [7.531052649961168]
検証可能な報酬付き強化学習(RLVR)は、最近、大規模言語モデル(LLM)の推論能力を進歩させた。
サンプル中心の観点からRLVRを調査し,プログレッシブ最適化手法の枠組みであるLPPOを導入する。
私たちの仕事は、データボリュームを単にスケールアップするのではなく、小さな信頼性のある高品質なデモを最大限に活用する方法という、重要な問題に対処しています。
論文 参考訳(メタデータ) (2025-07-09T06:05:28Z) - Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるために,新しい記号回帰手法を提案する。
我々の研究は、データ固有の式生成器の学習に焦点を当てた、一般的なDSRフレームワークと一致しています。
論文 参考訳(メタデータ) (2024-06-10T19:29:10Z) - Rethinking Value Function Learning for Generalization in Reinforcement
Learning [11.516147824168732]
我々は、観測一般化性能を向上させるために、複数の訓練環境においてRLエージェントを訓練することの課題に焦点をあてる。
マルチ環境設定における価値ネットワークは、従来の単一環境設定よりもトレーニングデータの過度な適合を最適化し難い。
本稿では,政策ネットワークよりもトレーニングデータが多い値ネットワークを少ない頻度で最適化することにより,暗黙的に評価値のペナルティ化を行うDelayed-Critic Policy Gradient (DCPG)を提案する。
論文 参考訳(メタデータ) (2022-10-18T16:17:47Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。