Fugu-MT 論文翻訳(概要): Learning from Mistakes: a Weakly-supervised Method for Mitigating the Distribution Shift in Autonomous Vehicle Planning

論文の概要: Learning from Mistakes: a Weakly-supervised Method for Mitigating the Distribution Shift in Autonomous Vehicle Planning

arxiv url: http://arxiv.org/abs/2406.01544v1
Date: Mon, 3 Jun 2024 17:25:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 22:00:59.775814
Title: Learning from Mistakes: a Weakly-supervised Method for Mitigating the Distribution Shift in Autonomous Vehicle Planning
Title（参考訳）: 誤りから学ぶ:自動運転車計画における配電シフトの微妙な制御方法
Authors: Fazel Arasteh, Mohammed Elmahgiubi, Behzad Khamidehi, Hamidreza Mirkhani, Weize Zhang, Kasra Rezaee,
Abstract要約: 本稿では,自動運転車の学習方法としてLearning from Mistakes (LfM)を提案する。 LfMは、事前訓練されたプランナーがその直接的な目的から逸脱したインスタンスを特定する。本稿では,有効な軌跡を識別することを目的とした,弱教師付き手法である妥当性学習を紹介する。
参考スコア（独自算出の注目度）: 2.473948454680334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The planning problem constitutes a fundamental aspect of the autonomous driving framework. Recent strides in representation learning have empowered vehicles to comprehend their surrounding environments, thereby facilitating the integration of learning-based planning strategies. Among these approaches, Imitation Learning stands out due to its notable training efficiency. However, traditional Imitation Learning methodologies encounter challenges associated with the co-variate shift phenomenon. We propose Learn from Mistakes (LfM) as a remedy to address this issue. The essence of LfM lies in deploying a pre-trained planner across diverse scenarios. Instances where the planner deviates from its immediate objectives, such as maintaining a safe distance from obstacles or adhering to traffic rules, are flagged as mistakes. The environments corresponding to these mistakes are categorized as out-of-distribution states and compiled into a new dataset termed closed-loop mistakes dataset. Notably, the absence of expert annotations for the closed-loop data precludes the applicability of standard imitation learning approaches. To facilitate learning from the closed-loop mistakes, we introduce Validity Learning, a weakly supervised method, which aims to discern valid trajectories within the current environmental context. Experimental evaluations conducted on the InD and Nuplan datasets reveal substantial enhancements in closed-loop metrics such as Progress and Collision Rate, underscoring the effectiveness of the proposed methodology.
Abstract（参考訳）: 計画問題は、自律運転フレームワークの基本的な側面を構成する。近年の表現学習の進歩により、車両は周囲の環境を理解することができ、学習に基づく計画戦略の統合が容易になった。これらのアプローチの中で、Imitation Learningは優れたトレーニング効率のために際立っている。しかし、従来の模倣学習手法は、共変量シフト現象に関連する課題に遭遇する。本稿では,この問題に対する対策としてLearning from Mistakes (LfM)を提案する。 LfMの本質は、様々なシナリオで事前訓練されたプランナーをデプロイすることにある。障害から安全な距離を維持したり、交通ルールを守ったりといった、プランナーが直接の目的から逸脱するケースは、間違いとしてフラグ付けされる。これらのミスに対応する環境は、配布外状態に分類され、クローズドループミスデータセットと呼ばれる新しいデータセットにコンパイルされる。特に、クローズドループデータに専門家アノテーションがないことは、標準的な模倣学習アプローチの適用性を妨げている。閉ループ誤りからの学習を容易にするために,現状の環境条件下で有効な軌跡を識別することを目的とした,弱教師付き手法であるValidity Learningを導入する。 InDデータセットとNuplanデータセットで行った実験的評価は、プログレッシブやコリジョンレートなどのクローズドループメトリクスを大幅に向上させ、提案手法の有効性を裏付けるものである。

関連論文リスト

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures [14.313346858887286]
自律走行のためのVLA(Vision-Language-Action)モデルは、強化学習(Reinforcement Learning、RL)最適化時にしばしばパフォーマンス高原に到達する。この停滞は、以前のスーパービジョン・ファインチューニング(SFT)によって制約された探査能力から生じる。構造化された診断フィードバックでRLを増強するフレームワークであるELF-VLA(Explicit Learning from Failures)を提案する。
論文参考訳（メタデータ） (2026-03-01T11:41:22Z)
Hierarchical Vision Language Action Model Using Success and Failure Demonstrations [60.82332413442677]
階層型視覚-言語-アクションモデルであるVINEを導入し,高レベル推論を低レベル制御から分離する。システム2は、2Dシーングラフの抽象化を介して、実現可能性誘導木探索を行う。システム1はエージェントのコアスキルを変更することなく、低レベルのアクションを実行する。
論文参考訳（メタデータ） (2025-12-03T15:58:38Z)
Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文参考訳（メタデータ） (2025-10-22T16:43:29Z)
From Physics to Machine Learning and Back: Part II - Learning and Observational Bias in PHM [52.64097278841485]
物理インフォームドモデリングとデータストラテジーによる学習と観察バイアスの導入は、モデルを物理的に一貫した信頼性のある予測へと導くことができるかを検討する。メタラーニングや少数ショットラーニングなどの高速適応手法をドメイン一般化手法とともに検討する。
論文参考訳（メタデータ） (2025-09-25T14:15:43Z)
Accelerated Learning with Linear Temporal Logic using Differentiable Simulation [21.84092672461171]
国家の回避やマルコフ決定プロセスのような伝統的な安全保証アプローチは、しばしば軌道要求を不適切に捉えている。本稿では,特定可能なシミュレータと統合した最初の手法を提案する。本手法では, 客観的な正当性を損なうことなく, スパース・リワード問題を本質的に緩和し, 相異なる報酬と状態を得るためのソフトラベリングを導入する。
論文参考訳（メタデータ） (2025-06-01T20:59:40Z)
RealDrive: Retrieval-Augmented Driving with Diffusion Models [42.6467760755688]
学習ベースのプランナーは、データからのニュアンスなインタラクションを推論することを学ぶことによって、人間のような運転行動を生成する。データ駆動型アプローチは、しばしば稀で安全クリティカルなシナリオと格闘し、生成された軌道に対して限定的な制御性を提供する。本稿では,RealDriveを提案する。RealDriveは,トレーニングデータセットから最も関連性の高い専門家のデモンストレーションを検索することで,拡散ベースの計画ポリシーを初期化するフレームワークである。
論文参考訳（メタデータ） (2025-05-30T17:15:03Z)
Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies [19.27526590452503]
FAIL-Detectは、模倣学習に基づくロボット操作における障害検出のための2段階のアプローチである。まず、政策失敗と相関し、不確実性を捉えるスカラー信号にポリシー入力と出力を蒸留する。我々の実験は、新しいフローベース密度推定器を使用する場合、学習信号がほぼ一貫した効果を示す。
論文参考訳（メタデータ） (2025-03-11T15:47:12Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Federated Continual Learning Goes Online: Uncertainty-Aware Memory Management for Vision Tasks and Beyond [13.867793835583463]
本稿では,破滅的な記憶を解消するための不確実性を考慮したメモリベース手法を提案する。特定の特性を持つサンプルを検索し、そのようなサンプル上でモデルを再訓練することで、このアプローチの可能性を実証する。
論文参考訳（メタデータ） (2024-05-29T09:29:39Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文参考訳（メタデータ） (2023-06-04T18:14:18Z)
Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文参考訳（メタデータ） (2023-03-21T06:45:14Z)
EvCenterNet: Uncertainty Estimation for Object Detection using Evidential Learning [26.535329379980094]
EvCenterNetは、新しい不確実性を認識した2Dオブジェクト検出フレームワークである。分類と回帰の不確実性の両方を推定するために、顕在的学習を用いる。我々は、KITTIデータセット上でモデルをトレーニングし、配布外のデータセットに挑戦して評価する。
論文参考訳（メタデータ） (2023-03-06T11:07:11Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文参考訳（メタデータ） (2021-11-22T10:37:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。