論文の概要: Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2503.10434v1
- Date: Thu, 13 Mar 2025 14:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:51.723909
- Title: Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback
- Title(参考訳): 人間のフィードバックからの強化学習を用いたファインタニング生成軌道モデル
- Authors: Derun Li, Jianwei Ren, Yue Wang, Xin Wen, Pengxiang Li, Leimeng Xu, Kun Zhan, Zhongpu Xia, Peng Jia, Xianpeng Lang, Ningyi Xu, Hang Zhao,
- Abstract要約: 生成軌道モデルのための人間のフィードバック駆動微調整フレームワークであるTrajHFを紹介する。
TrajHFは、従来の模倣学習を超えたマルチモーダル軌道生成を洗練する。
NavSimベンチマークで93.95のPDMSを達成し、他の手法をはるかに上回っている。
- 参考スコア(独自算出の注目度): 33.09982089166203
- License:
- Abstract: Generating human-like and adaptive trajectories is essential for autonomous driving in dynamic environments. While generative models have shown promise in synthesizing feasible trajectories, they often fail to capture the nuanced variability of human driving styles due to dataset biases and distributional shifts. To address this, we introduce TrajHF, a human feedback-driven finetuning framework for generative trajectory models, designed to align motion planning with diverse driving preferences. TrajHF incorporates multi-conditional denoiser and reinforcement learning with human feedback to refine multi-modal trajectory generation beyond conventional imitation learning. This enables better alignment with human driving preferences while maintaining safety and feasibility constraints. TrajHF achieves PDMS of 93.95 on NavSim benchmark, significantly exceeding other methods. TrajHF sets a new paradigm for personalized and adaptable trajectory generation in autonomous driving.
- Abstract(参考訳): 動的環境下での自律走行には、人間のような適応軌道の生成が不可欠である。
生成モデルは、実現可能な軌道の合成において有望であるが、データセットバイアスと分布シフトによる人間の運転スタイルの微妙な変動を捉えることに失敗することが多い。
そこで本研究では,人間のフィードバック駆動による生成軌道モデルのための微調整フレームワークであるTrajHFについて紹介する。
TrajHFはマルチ条件デノイザと強化学習を人間のフィードバックで組み込んで、従来の模倣学習以上の多モード軌道生成を洗練させる。
これにより、安全性と実現可能性の制約を保ちながら、人間の運転優先事項との整合性が向上する。
TrajHFはNavSimベンチマークで93.95のPDMSを達成した。
TrajHFは、自律運転におけるパーソナライズされた適応可能な軌道生成のための新しいパラダイムを設定する。
関連論文リスト
- DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - MobilityGPT: Enhanced Human Mobility Modeling with a GPT model [12.01839817432357]
我々はこれらの問題に対処するために、自己回帰生成タスクとして、人間のモビリティモデリングを再構築する。
本稿では,ジオスパティカル・アウェア・ジェネレーティブ・モデルであるモビリティGPTを提案する。
実世界のデータセットの実験では、モビリティGPTは最先端の手法よりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:22:21Z) - RACER: Rational Artificial Intelligence Car-following-model Enhanced by
Reality [51.244807332133696]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。
従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。
RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文 参考訳(メタデータ) (2023-12-12T06:21:30Z) - Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z) - Interaction-Aware Personalized Vehicle Trajectory Prediction Using
Temporal Graph Neural Networks [8.209194305630229]
既存の手法は主に大規模なデータセットからの一般的な軌道予測に依存している。
本稿では,時間グラフニューラルネットワークを組み込んだ対話型車両軌跡予測手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T20:20:26Z) - Continuous Trajectory Generation Based on Two-Stage GAN [50.55181727145379]
本稿では,道路網上の連続軌道を生成するために,新たな2段階生成対向フレームワークを提案する。
具体的には、A*アルゴリズムの人間の移動性仮説に基づいてジェネレータを構築し、人間の移動性について学習する。
判別器では, 逐次報酬と移動ヤウ報酬を組み合わせることで, 発電機の有効性を高める。
論文 参考訳(メタデータ) (2023-01-16T09:54:02Z) - TrajGen: Generating Realistic and Diverse Trajectories with Reactive and
Feasible Agent Behaviors for Autonomous Driving [19.06020265777298]
既存のシミュレーターは、背景車両のシステムに基づく行動モデルに依存しており、現実のシナリオにおける複雑なインタラクティブな振る舞いを捉えることはできない。
そこで我々は,人間の実演からより現実的な行動を直接捉えることができる2段階の軌道生成フレームワークであるTrajGenを提案する。
また,データ駆動型シミュレータI-Simを開発した。
論文 参考訳(メタデータ) (2022-03-31T04:48:29Z) - Formulation and validation of a car-following model based on deep
reinforcement learning [0.0]
深部強化学習に基づく新車追従モデルの提案と検証を行う。
当社のモデルは, 自由・自動車追従体制において, 外部に与えられた報酬関数を最大化するように訓練されている。
これらの報酬関数のパラメータは、Intelligent Driver Modelのような従来のモデルに類似している。
論文 参考訳(メタデータ) (2021-09-29T08:27:12Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z) - Path Planning Followed by Kinodynamic Smoothing for Multirotor Aerial
Vehicles (MAVs) [61.94975011711275]
そこで本稿では,RRT*textquotedblrightのテキストを幾何学的にベースとした動き計画手法を提案する。
提案手法では,適応探索空間とステアリング機能を導入したオリジナルのRT*を改良した。
提案手法を様々なシミュレーション環境で検証した。
論文 参考訳(メタデータ) (2020-08-29T09:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。