論文の概要: Off-Policy Actor-Critic with Sigmoid-Bounded Entropy for Real-World Robot Learning
- arxiv url: http://arxiv.org/abs/2601.15761v1
- Date: Thu, 22 Jan 2026 08:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.548038
- Title: Off-Policy Actor-Critic with Sigmoid-Bounded Entropy for Real-World Robot Learning
- Title(参考訳): 実世界ロボット学習のためのシグモイド境界エントロピーを用いたオフポリシィアクタ・クリティカル
- Authors: Xiefeng Wu, Mingyu Hu, Shu Zhang,
- Abstract要約: 本稿では,SigEnt-SACについて紹介する。
SigEnt-SACはQ関数の振動を実質的に軽減し、従来の方法よりも100%の成功率に達する。
- 参考スコア(独自算出の注目度): 1.6836220990645554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying reinforcement learning in the real world remains challenging due to sample inefficiency, sparse rewards, and noisy visual observations. Prior work leverages demonstrations and human feedback to improve learning efficiency and robustness. However, offline-to-online methods need large datasets and can be unstable, while VLA-assisted RL relies on large-scale pretraining and fine-tuning. As a result, a low-cost real-world RL method with minimal data requirements has yet to emerge. We introduce \textbf{SigEnt-SAC}, an off-policy actor-critic method that learns from scratch using a single expert trajectory. Our key design is a sigmoid-bounded entropy term that prevents negative-entropy-driven optimization toward out-of-distribution actions and reduces Q-function oscillations. We benchmark SigEnt-SAC on D4RL tasks against representative baselines. Experiments show that SigEnt-SAC substantially alleviates Q-function oscillations and reaches a 100\% success rate faster than prior methods. Finally, we validate SigEnt-SAC on four real-world robotic tasks across multiple embodiments, where agents learn from raw images and sparse rewards; results demonstrate that SigEnt-SAC can learn successful policies with only a small number of real-world interactions, suggesting a low-cost and practical pathway for real-world RL deployment.
- Abstract(参考訳): 実世界における強化学習の展開は、サンプルの非効率性、スパース報酬、ノイズの多い視覚的観察のため、依然として困難である。
以前の作業では、デモンストレーションと人間のフィードバックを活用して、学習効率と堅牢性を改善する。
しかしながら、オフラインからオンラインへの手法は大規模なデータセットを必要とし、不安定な場合もあり、VLA支援RLは大規模事前学習と微調整に依存している。
その結果、最小限のデータ要件を持つ低コストな実世界のRL法がまだ登場していない。
本稿では,1つの専門家の軌跡からスクラッチから学習する非政治的アクター批判手法である \textbf{SigEnt-SAC} を紹介する。
我々の鍵となる設計はシグモノイド結合エントロピー項であり、負のエントロピー駆動による分布外動作への最適化を防止し、Q関数の発振を低減する。
D4RLタスクのSigEnt-SACを代表ベースラインに対してベンチマークする。
実験により、SigEnt-SACはQ関数の振動を実質的に軽減し、従来の方法よりも100倍の成功率に達することが示された。
最後に、SigEnt-SACを、エージェントが生画像から学習し、粗末な報酬を与える複数の実施形態の4つの実世界のロボットタスクに対して検証し、その結果、SigEnt-SACが少数の実世界のインタラクションだけで成功政策を学習できることを示し、実世界のRL展開のための低コストで実用的な経路を示唆している。
関連論文リスト
- Residual Off-Policy RL for Finetuning Behavior Cloning Policies [41.99435186991878]
本稿では,行動クローニング(BC)と強化学習(RL)の利点を組み合わせたレシピを提案する。
提案手法は疎二元報酬信号のみを必要とするため,高次自由度(DoF)システムの操作ポリシーを効果的に改善することができる。
特に、私たちの知る限りでは、人型ロボットによる実世界初のRLトレーニングが成功しました。
論文 参考訳(メタデータ) (2025-09-23T17:59:46Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - SLAC: Simulation-Pretrained Latent Action Space for Whole-Body Real-World RL [41.254970515368335]
有能な家庭用・産業用ロボットの構築には、移動マニピュレータのような多目的で自由度の高いシステム(DoF)の制御を習得する必要がある。
強化学習は、自律的なロボット制御ポリシーの獲得を約束するが、それをハイDoFに拡張することは依然として難しい。
本稿では,現実のRLを複雑な具体化のためにレンダリングするSLACを紹介する。
論文 参考訳(メタデータ) (2025-06-04T16:41:55Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [45.377385280485065]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
我々は,サンプルの複雑さ,トレーニング不安定性,および準最適ナッシュ平衡に収束するリスクに関する問題を解決するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
HASACは、Bi-DexHands、Multi-Agent MuJoCo、StarCraft Challenge、Google Research Football、Multi-Agent Particle Environment、Light Aircraft Gameの6つのベンチマークで評価する。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。