論文の概要: Diverse Controllable Diffusion Policy with Signal Temporal Logic
- arxiv url: http://arxiv.org/abs/2503.02924v1
- Date: Tue, 04 Mar 2025 18:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:03.155885
- Title: Diverse Controllable Diffusion Policy with Signal Temporal Logic
- Title(参考訳): 信号時間論理を用いた可変拡散制御
- Authors: Yue Meng, Chuchu fan,
- Abstract要約: 信号テンポラル論理(STL)と拡散モデルを用いて、制御可能で多様でルール対応のポリシーを学習する。
閉ループ試験では,本手法は最も多様性が高く,規則満足度が高く,衝突率も低い。
ヒトとロボットの遭遇シナリオに関するケーススタディは、我々のアプローチが多様かつ閉軌道の軌道を生成できることを示している。
- 参考スコア(独自算出の注目度): 13.154661571539577
- License:
- Abstract: Generating realistic simulations is critical for autonomous system applications such as self-driving and human-robot interactions. However, driving simulators nowadays still have difficulty in generating controllable, diverse, and rule-compliant behaviors for road participants: Rule-based models cannot produce diverse behaviors and require careful tuning, whereas learning-based methods imitate the policy from data but are not designed to follow the rules explicitly. Besides, the real-world datasets are by nature "single-outcome", making the learning method hard to generate diverse behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion Models to learn controllable, diverse, and rule-aware policy. We first calibrate the STL on the real-world data, then generate diverse synthetic data using trajectory optimization, and finally learn the rectified diffusion policy on the augmented dataset. We test on the NuScenes dataset and our approach can achieve the most diverse rule-compliant trajectories compared to other baselines, with a runtime 1/17X to the second-best approach. In the closed-loop testing, our approach reaches the highest diversity, rule satisfaction rate, and the least collision rate. Our method can generate varied characteristics conditional on different STL parameters in testing. A case study on human-robot encounter scenarios shows our approach can generate diverse and closed-to-oracle trajectories. The annotation tool, augmented dataset, and code are available at https://github.com/mengyuest/pSTL-diffusion-policy.
- Abstract(参考訳): 現実的なシミュレーションを生成することは、自動運転や人間とロボットの相互作用のような自律的なシステムアプリケーションにとって重要である。
ルールベースのモデルは多様な振る舞いを生成できず、注意深いチューニングを必要とするが、学習ベースの手法はデータからポリシーを模倣するが、明示的にルールに従うように設計されていない。
さらに、現実世界のデータセットは本質的に「単一アウトカム」であり、学習方法が多様な振る舞いを生成するのを困難にしている。
本稿では,信号時間論理(STL)と拡散モデルを用いて,制御可能な多様かつルール対応のポリシーを学習する。
まず、実世界のデータに基づいてSTLを校正し、軌道最適化を用いて多様な合成データを生成し、最後に、拡張データセット上の修正拡散ポリシーを学習する。
我々はNuScenesデータセットをテストし、我々のアプローチは他のベースラインと比較して最も多様なルール準拠のトラジェクトリを達成できます。
閉ループ試験では,本手法は最も多様性が高く,規則満足度が高く,衝突率も低い。
本手法は,テストにおいて異なるSTLパラメータに対して異なる特性を条件付きで生成することができる。
ヒトとロボットの遭遇シナリオに関するケーススタディは、我々のアプローチが多様かつ閉軌道の軌道を生成できることを示している。
アノテーションツール、拡張データセット、コードはhttps://github.com/mengyuest/pSTL-diffusion-policy.comで入手できる。
関連論文リスト
- IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文 参考訳(メタデータ) (2025-02-17T23:22:49Z) - Gradient-based Trajectory Optimization with Parallelized Differentiable Traffic Simulation [24.95575815501035]
インテリジェントドライバモデル(IDM)に基づく並列化微分可能交通シミュレータを提案する。
我々の車両シミュレーターは、車両の動きを効率的にモデル化し、現実世界のデータに合うように教師できる軌道を生成する。
このシミュレータを用いて、入力軌跡の雑音をフィルタリングし(軌道フィルタリング)、スパース軌跡から高密度軌跡を再構成し(軌道再構成)、将来の軌跡を予測する。
論文 参考訳(メタデータ) (2024-12-21T19:53:38Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Online Analytic Exemplar-Free Continual Learning with Large Models for Imbalanced Autonomous Driving Task [25.38082751323396]
AEF-OCL (Analytic Exemplar-Free Online Continual Learning Algorithm) を提案する。
AEF-OCLは解析的連続学習原理を活用し、大きなバックボーンネットワークによって抽出された特徴の分類器としてリッジ回帰を用いる。
実験結果から, 自動走行SODA10Mデータセットにおいて, 提案手法は, 既往の戦略であるにもかかわらず, 様々な手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-28T03:19:15Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Robust Test-Time Adaptation in Dynamic Scenarios [9.475271284789969]
テスト時適応(TTA)は、未ラベルのテストデータストリームのみを用いて、事前訓練されたモデルを分散をテストすることを目的としている。
PTTAの複雑なデータストリームに対してロバストテスト時間適応法(RoTTA)を精査する。
私たちのメソッドは実装が簡単で、迅速なデプロイメントに適しています。
論文 参考訳(メタデータ) (2023-03-24T10:19:14Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。