Fugu-MT 論文翻訳(概要): RT-HCP: Dealing with Inference Delays and Sample Efficiency to Learn Directly on Robotic Platforms

論文の概要: RT-HCP: Dealing with Inference Delays and Sample Efficiency to Learn Directly on Robotic Platforms

arxiv url: http://arxiv.org/abs/2509.06714v1
Date: Mon, 08 Sep 2025 14:09:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-09 14:07:04.18231
Title: RT-HCP: Dealing with Inference Delays and Sample Efficiency to Learn Directly on Robotic Platforms
Title（参考訳）: RT-HCP:ロボットプラットフォーム上で直接学習するための推論遅延とサンプル効率によるディーリング
Authors: Zakariae El Asri, Ibrahim Laiche, Clément Rambour, Olivier Sigaud, Nicolas Thome,
Abstract要約: ロボット上でコントローラを直接学習するには、極端なサンプル効率が必要である。本稿では,RT-HCPを提案する。RT-HCPは,性能,サンプル効率,推論時間に優れたトレードオフを提供するアルゴリズムである。我々はRT-HCPの優位性を実験で検証し、簡単なが高周波な振り子プラットフォーム上で直接コントローラを学習する実験を行った。
参考スコア（独自算出の注目度）: 16.18687520299694
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning a controller directly on the robot requires extreme sample efficiency. Model-based reinforcement learning (RL) methods are the most sample efficient, but they often suffer from a too long inference time to meet the robot control frequency requirements. In this paper, we address the sample efficiency and inference time challenges with two contributions. First, we define a general framework to deal with inference delays where the slow inference robot controller provides a sequence of actions to feed the control-hungry robotic platform without execution gaps. Then, we compare several RL algorithms in the light of this framework and propose RT-HCP, an algorithm that offers an excellent trade-off between performance, sample efficiency and inference time. We validate the superiority of RT-HCP with experiments where we learn a controller directly on a simple but high frequency FURUTA pendulum platform. Code: github.com/elasriz/RTHCP
Abstract（参考訳）: ロボット上でコントローラを直接学習するには、極端なサンプル効率が必要である。モデルベース強化学習(RL)法が最も効率的であるが、ロボット制御周波数要求を満たすには長い推論時間を要することが多い。本稿では,2つのコントリビューションを伴って,サンプル効率と推定時間の問題に対処する。まず,動作遅延に対処する一般的なフレームワークを定義し,低速な推論ロボットコントローラが,実行ギャップを伴わずにロボットプラットフォームに供給するための一連のアクションを提供する。そこで,本フレームワークを用いて複数のRLアルゴリズムを比較し,性能,サンプル効率,推論時間に優れたトレードオフを提供するRT-HCPを提案する。我々はRT-HCPの優位性を実験により検証し, 単純だが高周波なFURUTA振り子プラットフォーム上で直接コントローラを学習する実験を行った。コード:github.com/elasriz/RTHCP

関連論文リスト

TARC: Time-Adaptive Robotic Control [48.61871569444481]
ロボット工学における固定周波数制御は、低周波数制御の効率と高周波制御の堅牢性との間のトレードオフを課す。我々は、ポリシーが制御行動とその適用期間を共同で選択する強化学習アプローチでこの問題に対処する。 2つの異なるハードウェアプラットフォーム上でのゼロショットsim-to-real実験により本手法の有効性を検証した。
論文参考訳（メタデータ） (2025-10-27T10:10:19Z)
Assistax: A Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics [18.70896736010314]
ゲームは、関連する課題を提示し、実行しやすく、理解しやすいため、強化学習ベンチマークを支配しています。 Assistaxは、支援ロボットタスクに起因する課題に対処するために設計されたオープンソースのベンチマークである。オープンループのウォールタイムに関しては、AsistaxはCPUベースの代替よりもベクタライジングトレーニングの実行が速い場合、最大370タイムで動作します。
論文参考訳（メタデータ） (2025-07-29T09:49:11Z)
FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文参考訳（メタデータ） (2025-01-16T18:57:04Z)
One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。 OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文参考訳（メタデータ） (2024-10-28T17:54:31Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
Modelling, Positioning, and Deep Reinforcement Learning Path Tracking Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文参考訳（メタデータ） (2024-01-10T14:40:53Z)
Tuning Legged Locomotion Controllers via Safe Bayesian Optimization [47.87675010450171]
本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの展開を効率化するための,データ駆動型戦略を提案する。モデルフリーな安全な学習アルゴリズムを用いて制御ゲインのチューニングを自動化し、制御定式化で使用される単純化されたモデルと実システムとのミスマッチに対処する。
論文参考訳（メタデータ） (2023-06-12T13:10:14Z)
Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文参考訳（メタデータ） (2022-11-09T10:28:40Z)
Training Efficient Controllers via Analytic Policy Gradient [44.0762454494769]
ロボットシステムの制御設計は複雑であり、しばしば軌道を正確に追従するために最適化を解く必要がある。 Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。本稿では,この問題に対処するための分析政策グラディエント(APG)手法を提案する。
論文参考訳（メタデータ） (2022-09-26T22:04:35Z)
An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文参考訳（メタデータ） (2022-07-08T11:42:05Z)
Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文参考訳（メタデータ） (2020-10-16T18:48:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。