論文の概要: SEAR: Sample Efficient Action Chunking Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.01891v1
- Date: Mon, 02 Mar 2026 14:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.902283
- Title: SEAR: Sample Efficient Action Chunking Reinforcement Learning
- Title(参考訳): SEAR: 効果的なアクションチャンキング強化学習
- Authors: C. F. Maximilian Nagy, Onur Celik, Emiliyan Gospodinov, Florian Seligmann, Weiran Liao, Aryan Kaushik, Gerhard Neumann,
- Abstract要約: アクションチャンキングのためのオフポリシーオンライン強化学習アルゴリズムであるSEARを紹介する。
アクションチャンクの時間的構造を利用しており、小さくて大きなチャンクサイズの利点を効果的に組み合わせて、後退する地平線で機能する。
SEARは、Metaworldにおけるオンライン強化学習の最先端を上回り、最大20までのチャンクサイズのトレーニングを行っている。
- 参考スコア(独自算出の注目度): 19.373938761640606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action chunking can improve exploration and value estimation in long horizon reinforcement learning, but makes learning substantially harder since the critic must evaluate action sequences rather than single actions, greatly increasing approximation and data efficiency challenges. As a result, existing action chunking methods, primarily designed for the offline and offline-to-online settings, have not achieved strong performance in purely online reinforcement learning. We introduce SEAR, an off policy online reinforcement learning algorithm for action chunking. It exploits the temporal structure of action chunks and operates with a receding horizon, effectively combining the benefits of small and large chunk sizes. SEAR outperforms state of the art online reinforcement learning methods on Metaworld, training with chunk sizes up to 20.
- Abstract(参考訳): アクションチャンキングは、長期水平強化学習における探索と価値推定を改善することができるが、批判者は単一のアクションよりもアクションシーケンスを評価する必要があるため、学習を著しく困難にし、近似とデータ効率の課題が大幅に増大する。
その結果、オンライン強化学習において、オフラインとオフラインのオフライン設定を主目的とする既存のアクションチャンキング手法は、高いパフォーマンスを達成できていない。
アクションチャンキングのためのオフポリシーオンライン強化学習アルゴリズムであるSEARを紹介する。
アクションチャンクの時間的構造を利用しており、小さくて大きなチャンクサイズの利点を効果的に組み合わせて、後退する地平線で機能する。
SEARは、Metaworldで最先端のオンライン強化学習手法を上回り、チャンクサイズを最大20までトレーニングする。
関連論文リスト
- DEAS: DEtached value learning with Action Sequence for Scalable Offline RL [46.40818333031899]
Action Sequence(DEAS)は、アクションシーケンスをバリュー学習に活用する、シンプルだが効果的なオフラインRLフレームワークである。
DEASはOGBenchの複雑な長期タスクのベースラインを一貫して上回る。
大規模ビジョン・ランゲージ・アクションモデルの性能向上に応用できる。
論文 参考訳(メタデータ) (2025-10-09T03:11:09Z) - Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward [85.84943447589511]
本稿では,高次元連続行動系列を生成するための新しいRLフレームワークであるAC3(Actor-Critic for Continuous Chunks)を紹介する。
この学習プロセスを安定させ、データ効率を高めるため、AC3はアクターと批評家の両方に目標安定化機構を組み込む。
論文 参考訳(メタデータ) (2025-08-15T01:27:15Z) - Reinforcement Learning with Action Chunking [56.66655947239018]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。
我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。
実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-07-10T17:48:03Z) - AmorLIP: Efficient Language-Image Pretraining via Amortization [52.533088120633785]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。
軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文 参考訳(メタデータ) (2025-05-25T05:30:37Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Robot Policy Learning from Demonstration Using Advantage Weighting and
Early Termination [14.754297065772676]
オフラインおよびオンライントレーニングを用いたオフライン専門家データを活用するために,新しい手法を用いたアルゴリズムを提案する。
AWETは、4つの標準的なロボットタスクの最先端のベースラインと比較して改善され、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-07-31T17:44:22Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。