Fugu-MT 論文翻訳(概要): Leveling the Playing Field: Carefully Comparing Classical and Learned Controllers for Quadrotor Trajectory Tracking

論文の概要: Leveling the Playing Field: Carefully Comparing Classical and Learned Controllers for Quadrotor Trajectory Tracking

arxiv url: http://arxiv.org/abs/2506.17832v1
Date: Sat, 21 Jun 2025 22:03:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.605256
Title: Leveling the Playing Field: Carefully Comparing Classical and Learned Controllers for Quadrotor Trajectory Tracking
Title（参考訳）: 演奏分野のレベル付け:四角形軌道追跡のための古典的および学習的制御器を慎重に比較する
Authors: Pratik Kunapuli, Jake Welde, Dinesh Jayaraman, Vijay Kumar,
Abstract要約: 強化学習(RL)のような学習ベースの制御アプローチは、最近、四足歩行追跡やドローンレースといったタスクに対して、印象的な結果を生み出した。しかしながら、このような非常に異なるコントローラのクラスの性能を確実に比較することは、一見するとより複雑である。ベンチマークのためのクラス最高のRLと幾何学的コントローラを合成するためのベストプラクティスのセットを開発する。
参考スコア（独自算出の注目度）: 26.134736322861443
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning-based control approaches like reinforcement learning (RL) have recently produced a slew of impressive results for tasks like quadrotor trajectory tracking and drone racing. Naturally, it is common to demonstrate the advantages of these new controllers against established methods like analytical controllers. We observe, however, that reliably comparing the performance of such very different classes of controllers is more complicated than might appear at first sight. As a case study, we take up the problem of agile tracking of an end-effector for a quadrotor with a fixed arm. We develop a set of best practices for synthesizing the best-in-class RL and geometric controllers (GC) for benchmarking. In the process, we resolve widespread RL-favoring biases in prior studies that provide asymmetric access to: (1) the task definition, in the form of an objective function, (2) representative datasets, for parameter optimization, and (3) feedforward information, describing the desired future trajectory. The resulting findings are the following: our improvements to the experimental protocol for comparing learned and classical controllers are critical, and each of the above asymmetries can yield misleading conclusions. Prior works have claimed that RL outperforms GC, but we find the gaps between the two controller classes are much smaller than previously published when accounting for symmetric comparisons. Geometric control achieves lower steady-state error than RL, while RL has better transient performance, resulting in GC performing better in relatively slow or less agile tasks, but RL performing better when greater agility is required. Finally, we open-source implementations of geometric and RL controllers for these aerial vehicles, implementing best practices for future development. Website and code is available at https://pratikkunapuli.github.io/rl-vs-gc/
Abstract（参考訳）: 強化学習(RL)のような学習に基づく制御アプローチは、最近、四足歩行追跡やドローンレースといったタスクに対して、印象的な結果を生み出した。当然のことながら、これらの新しいコントローラの利点を分析コントローラのような確立した手法に対して示すことは一般的である。しかしながら、このような非常に異なるコントローラのクラスの性能を確実に比較することは、一見するとより複雑である。ケーススタディでは、固定アームを持つ四輪車用エンドエフェクターのアジャイルトラッキングの問題を取り上げる。ベンチマークのためのクラス最高のRLと幾何コントローラ(GC)を合成するためのベストプラクティスのセットを開発する。本プロセスでは,(1)目的関数の形式でのタスク定義,(2)パラメータ最適化のための代表データセット,(3)希望する将来の軌道を記述するフィードフォワード情報など,非対称なアクセスを提供する先行研究において,RLフェーリングバイアスを広く解決する。学習したコントローラと古典的なコントローラを比較するための実験的プロトコルの改善は重要であり、上記の各対称性は誤った結論を導き出すことができる。以前の研究では、RLはGCより優れていると主張しているが、2つのコントローラクラス間のギャップは対称比較を考慮に入れた場合よりもはるかに小さい。幾何学的制御はRLよりも安定した状態のエラーを減らし、RLはトランジェントなパフォーマンスが向上し、GCは比較的遅いか低いアジャイルタスクでパフォーマンスが向上するが、RLはよりアジリティが必要な場合にはパフォーマンスが向上する。最後に,これらの航空機用幾何学およびRLコントローラの実装をオープンソース化し,将来的な開発のためのベストプラクティスを実装した。 Webサイトとコードはhttps://pratikkunapuli.github.io/rl-vs-gc/で公開されている。

関連論文リスト

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving [27.551399472250168]
大規模言語モデル(LLM)は、正確で検証可能な計算を必要とする数学的推論タスクに苦慮することが多い。結果に基づく報酬から強化学習(RL)がテキストベースの推論を強化する一方で、エージェントがコード実行のような外部ツールを活用するために自律的に学習する方法を理解することは依然として重要である。
論文参考訳（メタデータ） (2025-05-12T17:23:34Z)
Reaching the Limit in Autonomous Racing: Optimal Control versus Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文参考訳（メタデータ） (2023-10-17T02:40:27Z)
Plume: A Framework for High Performance Deep RL Network Controllers via Prioritized Trace Sampling [8.917042313344943]
DRLトレーニングデータセットにおける歪んだ入力トレース分布を自動的に識別し、バランスをとるためのフレームワークPlumeを導入する。本稿では,適応ビットレートストリーミング,混雑制御,負荷分散といった3つのネットワーク環境におけるPlumeの評価を行った。 Plumeは、異なるコントローラとDRLアルゴリズムでシミュレーションと実世界の設定の両方で優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-02-24T02:09:33Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Training Efficient Controllers via Analytic Policy Gradient [44.0762454494769]
ロボットシステムの制御設計は複雑であり、しばしば軌道を正確に追従するために最適化を解く必要がある。 Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。本稿では,この問題に対処するための分析政策グラディエント(APG)手法を提案する。
論文参考訳（メタデータ） (2022-09-26T22:04:35Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning Workloads [4.575381867242508]
RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
論文参考訳（メタデータ） (2021-02-08T15:42:48Z)
Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文参考訳（メタデータ） (2020-10-16T18:48:49Z)
Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。 ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文参考訳（メタデータ） (2020-09-14T19:11:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。