論文の概要: ACT-Bench: Towards Action Controllable World Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.05337v1
- Date: Fri, 06 Dec 2024 01:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:25.851398
- Title: ACT-Bench: Towards Action Controllable World Models for Autonomous Driving
- Title(参考訳): ACT-Bench:自律運転のための行動制御可能な世界モデルを目指して
- Authors: Hidehisa Arai, Keishi Ishihara, Tsubasa Takahashi, Yu Yamaguchi,
- Abstract要約: 世界モデルは自律運転のための有望な神経シミュレータとして登場した。
動作の忠実度を定量化するためのオープンアクセス評価フレームワーク ACT-Bench を開発した。
現状のモデルが与えられた指示に完全に従わないことを示す一方で,Terraは改善された行動忠実性を実現する。
- 参考スコア(独自算出の注目度): 2.6749009435602122
- License:
- Abstract: World models have emerged as promising neural simulators for autonomous driving, with the potential to supplement scarce real-world data and enable closed-loop evaluations. However, current research primarily evaluates these models based on visual realism or downstream task performance, with limited focus on fidelity to specific action instructions - a crucial property for generating targeted simulation scenes. Although some studies address action fidelity, their evaluations rely on closed-source mechanisms, limiting reproducibility. To address this gap, we develop an open-access evaluation framework, ACT-Bench, for quantifying action fidelity, along with a baseline world model, Terra. Our benchmarking framework includes a large-scale dataset pairing short context videos from nuScenes with corresponding future trajectory data, which provides conditional input for generating future video frames and enables evaluation of action fidelity for executed motions. Furthermore, Terra is trained on multiple large-scale trajectory-annotated datasets to enhance action fidelity. Leveraging this framework, we demonstrate that the state-of-the-art model does not fully adhere to given instructions, while Terra achieves improved action fidelity. All components of our benchmark framework will be made publicly available to support future research.
- Abstract(参考訳): 世界モデルが自律運転のための有望な神経シミュレータとして登場し、現実世界のデータ不足を補い、クローズドループ評価を可能にする可能性がある。
しかし、現在の研究では、これらのモデルを視覚的リアリズムや下流タスクのパフォーマンスに基づいて評価しており、特定のアクション命令に対する忠実さに限定しており、ターゲットとするシミュレーションシーンを生成する上で重要な特性である。
行動の忠実性に対処する研究もあるが、それらの評価は再現性を制限するクローズドソース機構に依存している。
このギャップに対処するために,アクションの忠実度を定量化するためのオープンアクセス評価フレームワークACT-Benchと,ベースラインの世界モデルTerraを開発した。
我々のベンチマークフレームワークは、nuScenesから将来の軌跡データとショートコンテクストビデオとをペアリングする大規模なデータセットを含み、将来の動画フレームを生成するための条件入力を提供し、実行された動きに対するアクション忠実度の評価を可能にする。
さらにTerraは、アクションの忠実性を高めるために、複数の大規模トラジェクトリアノテーション付きデータセットでトレーニングされている。
このフレームワークを利用することで、現状のモデルが与えられた指示に完全に従わないことを示す一方、Terraは改善されたアクション忠実性を達成する。
ベンチマークフレームワークのすべてのコンポーネントは、将来の研究をサポートするために公開されます。
関連論文リスト
- WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - CERES: Critical-Event Reconstruction via Temporal Scene Graph Completion [7.542220697870245]
本稿では,実世界のデータに基づくシミュレーションにおけるオンデマンドシナリオ生成手法を提案する。
実世界のデータセットから得られたシナリオをシミュレーションに統合することにより、テストの妥当性と妥当性を高める。
論文 参考訳(メタデータ) (2024-10-17T13:02:06Z) - OmniPose6D: Towards Short-Term Object Pose Tracking in Dynamic Scenes from Monocular RGB [40.62577054196799]
実環境の多様性を反映した大規模合成データセットOmniPose6Dを提案する。
本稿では,ポーズ追跡アルゴリズムの総合的な比較のためのベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-09T09:01:40Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。
フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。
その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。