論文の概要: Exposing the Copycat Problem of Imitation-based Planner: A Novel Closed-Loop Simulator, Causal Benchmark and Joint IL-RL Baseline
- arxiv url: http://arxiv.org/abs/2504.14709v1
- Date: Sun, 20 Apr 2025 18:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:34:43.126289
- Title: Exposing the Copycat Problem of Imitation-based Planner: A Novel Closed-Loop Simulator, Causal Benchmark and Joint IL-RL Baseline
- Title(参考訳): 模擬プランナーのコピーキャット問題:新しいクローズドループシミュレータ、因果ベンチマーク、IL-RLベースライン
- Authors: Hui Zhou, Shaoshuai Shi, Hongsheng Li,
- Abstract要約: 機械学習ベースの計画では、模倣学習(IL)が一般的なアルゴリズムである。
主に、教師付き軌跡データから直接ポリシーを学習する。
学習した方針が根本的駆動原理を真に理解しているかどうかを判断することは依然として困難である。
本研究は、模倣と強化学習の両方をサポートする新しいクローズドループシミュレータを提案する。
- 参考スコア(独自算出の注目度): 49.51385135697656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML)-based planners have recently gained significant attention. They offer advantages over traditional optimization-based planning algorithms. These advantages include fewer manually selected parameters and faster development. Within ML-based planning, imitation learning (IL) is a common algorithm. It primarily learns driving policies directly from supervised trajectory data. While IL has demonstrated strong performance on many open-loop benchmarks, it remains challenging to determine if the learned policy truly understands fundamental driving principles, rather than simply extrapolating from the ego-vehicle's initial state. Several studies have identified this limitation and proposed algorithms to address it. However, these methods often use original datasets for evaluation. In these datasets, future trajectories are heavily dependent on initial conditions. Furthermore, IL often overfits to the most common scenarios. It struggles to generalize to rare or unseen situations. To address these challenges, this work proposes: 1) a novel closed-loop simulator supporting both imitation and reinforcement learning, 2) a causal benchmark derived from the Waymo Open Dataset to rigorously assess the impact of the copycat problem, and 3) a novel framework integrating imitation learning and reinforcement learning to overcome the limitations of purely imitative approaches. The code for this work will be released soon.
- Abstract(参考訳): 機械学習(ML)ベースのプランナは最近、大きな注目を集めている。
従来の最適化ベースの計画アルゴリズムよりも利点がある。
これらの利点は、手動で選択したパラメータが少なく、開発が速いことである。
MLベースの計画では、模倣学習(IL)が一般的なアルゴリズムである。
主に、教師付き軌跡データから直接ポリシーを学習する。
ILは多くのオープンループベンチマークで強い性能を示してきたが、エゴ車両の初期状態から外挿するのではなく、学習したポリシーが根本的駆動原理を真に理解しているかどうかを判断することは依然として難しい。
いくつかの研究でこの制限が特定され、それに対応するアルゴリズムが提案されている。
しかし、これらの手法は、しばしば評価にオリジナルのデータセットを使用する。
これらのデータセットでは、将来の軌道は初期条件に大きく依存する。
さらに、ILは多くの場合、最も一般的なシナリオに適合します。
珍しい、または目に見えない状況に一般化するのに苦労する。
これらの課題に対処するため、この研究は次のように提案する。
1)模倣と強化学習の両方をサポートする新しいクローズドループシミュレータ。
2)コピーキャット問題の影響を厳格に評価するためのWaymo Open Datasetに由来する因果ベンチマーク
3)模倣学習と強化学習を統合した新しい枠組みが,純粋に模倣的アプローチの限界を克服する。
この作業のコードはまもなくリリースされる予定だ。
関連論文リスト
- Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
ラベルなしのオフライン軌道データは、効率的な探索戦略を学ぶために利用することができる。
提案手法は,42の長軸,スパース・リワードタスクからなるスイートにおいて,従来戦略よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Amortized Active Learning for Nonparametric Functions [23.406516455945653]
アクティブラーニング(英: Active Learning, AL)は、最も情報性の高いデータを選択するためのシーケンシャルラーニングスキームである。
そこで本研究では,実データなしで事前トレーニングを行うニューラルネットワークを用いて,新たなデータを提案するアモータイズAL手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T12:38:08Z) - Automated Program Repair: Emerging trends pose and expose problems for benchmarks [7.437224586066947]
大規模言語モデル(LLM)はソフトウェアパッチの生成に使用される。
評価と比較は、結果が有効であり、一般化する可能性が高いことを保証するために注意する必要があります。
大規模かつしばしば開示されていないトレーニングデータセットには、評価される問題が含まれている可能性がある。
論文 参考訳(メタデータ) (2024-05-08T23:09:43Z) - Towards learning-based planning:The nuPlan benchmark for real-world
autonomous driving [2.6855803445552233]
nuPlanは世界初の実世界の自動運転データセットとベンチマークである。
このベンチマークは、MLベースのプランナーがさまざまな運転状況に対処できる能力をテストするために設計されている。
本稿では,多数のベースラインの詳細な解析を行い,MLに基づく手法と従来の手法とのギャップについて検討する。
論文 参考訳(メタデータ) (2024-03-07T01:24:59Z) - On the Limitations of Simulating Active Learning [32.34440406689871]
アクティブラーニング(アクティブラーニング、英: Active Learning、AL)は、人間のアノテーションのための情報的未ラベルデータを反復的に選択する、ヒューマン・アンド・モデル・イン・ザ・ループのパラダイムである。
この障害に対する簡単な修正は、ラベル付きで公開されているデータセットをラベルなしデータのプールとして扱うことで、ALをシミュレートすることだ。
我々は、利用可能なラベル付きデータセット上でのALアルゴリズムの評価は、実データにおけるそれらの有効性に対して低いバウンドを与えるかもしれないと論じる。
論文 参考訳(メタデータ) (2023-05-21T22:52:13Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Efficient time stepping for numerical integration using reinforcement
learning [0.15393457051344295]
機械学習とメタラーニングに基づくデータ駆動型タイムステッピング方式を提案する。
まず、1つまたは複数の基礎学習者(非滑らかまたはハイブリッドシステムの場合)はRLを使用して訓練されます。
次に、メタ学習者は(システムの状態に応じて)現在の状況に最適と思われる基礎学習者を選択する訓練を受ける。
論文 参考訳(メタデータ) (2021-04-08T07:24:54Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。