Fugu-MT 論文翻訳(概要): Generating Multimodal Driving Scenes via Next-Scene Prediction

論文の概要: Generating Multimodal Driving Scenes via Next-Scene Prediction

arxiv url: http://arxiv.org/abs/2503.14945v2
Date: Wed, 26 Mar 2025 13:45:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 12:47:10.347946
Title: Generating Multimodal Driving Scenes via Next-Scene Prediction
Title（参考訳）: 次世代予測によるマルチモーダル運転シーンの生成
Authors: Yanhao Wu, Haoyang Zhang, Tianwei Lin, Lichao Huang, Shujie Luo, Rui Wu, Congpei Qiu, Wei Ke, Tong Zhang,
Abstract要約: 自律運転(AD)における生成モデルは、多様なシーン生成を可能にするが、既存の方法は、限られた範囲のモダリティをキャプチャすることで不足する。本稿では,4つの主要なデータモダリティを組み込んだマルチモーダル生成フレームワークを提案する。我々のフレームワークは、拡張シーケンス上で複雑で現実的な運転シーンを効果的に生成し、マルチモーダル整合性を確保し、シーン要素のきめ細かい制御を提供する。
参考スコア（独自算出の注目度）: 24.84840824118813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative models in Autonomous Driving (AD) enable diverse scene creation, yet existing methods fall short by only capturing a limited range of modalities, restricting the capability of generating controllable scenes for comprehensive evaluation of AD systems. In this paper, we introduce a multimodal generation framework that incorporates four major data modalities, including a novel addition of map modality. With tokenized modalities, our scene sequence generation framework autoregressively predicts each scene while managing computational demands through a two-stage approach. The Temporal AutoRegressive (TAR) component captures inter-frame dynamics for each modality while the Ordered AutoRegressive (OAR) component aligns modalities within each scene by sequentially predicting tokens in a fixed order. To maintain coherence between map and ego-action modalities, we introduce the Action-aware Map Alignment (AMA) module, which applies a transformation based on the ego-action to maintain coherence between these modalities. Our framework effectively generates complex, realistic driving scenes over extended sequences, ensuring multimodal consistency and offering fine-grained control over scene elements. Project page: https://yanhaowu.github.io/UMGen/
Abstract（参考訳）: 自律運転(AD)における生成モデルは、多様なシーン生成を可能にするが、既存の手法は、限られた範囲のモダリティをキャプチャすることで不足し、ADシステムの総合的な評価のために制御可能なシーンを生成する能力を制限する。本稿では,4つの主要なデータモダリティを組み込んだマルチモーダル生成フレームワークを提案する。トークン化されたモダリティにより、シーンシーケンス生成フレームワークは、2段階のアプローチで計算要求を管理しながら各シーンを自動回帰予測する。テンポラルオートレグレッシブ(TAR)コンポーネントは各モダリティのフレーム間ダイナミクスをキャプチャし、オーダードオートレグレシブ(OAR)コンポーネントは固定順序でトークンを逐次予測することで各シーン内のモダリティを調整する。地図とエゴアクションのコヒーレンスを維持するために,これらのモダリティ間のコヒーレンスを維持するために,エゴアクションに基づく変換を適用した行動認識マップアライメント(AMA)モジュールを導入する。我々のフレームワークは、拡張シーケンス上で複雑で現実的な運転シーンを効果的に生成し、マルチモーダル整合性を確保し、シーン要素のきめ細かい制御を提供する。プロジェクトページ: https://yanhaowu.github.io/UMGen/

関連論文リスト

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation [37.748111048944274]
チェーン・オブ・アクション(Chain-of-Action, CoA)は、トラジェクティブ・オートレグレッシブ・モデリング(Trajectory Autoregressive Modeling)に基づいて構築されたビジュオ・モビリティ・パラダイムである。 CoAは、タスク固有のゴールを明示した後方推論によって、全軌道を生成する。我々は60のRLBenchタスクと8つの実世界の操作タスクにまたがる最先端のパフォーマンスをCoAで観察する。
論文参考訳（メタデータ） (2025-06-11T17:59:13Z)
GPD-1: Generative Pre-training for Driving [77.06803277735132]
本稿では,これらすべてのタスクを実現するために,GPD-1(Generative Pre-Training for Driving)モデルを提案する。それぞれのシーンをエゴ、エージェント、マップトークンで表現し、統一トークン生成問題として自律運転を定式化する。 GPD-1は、シーン生成、交通シミュレーション、クローズドループシミュレーション、マップ予測、モーションプランニングなど、微調整なしで様々なタスクに適応する。
論文参考訳（メタデータ） (2024-12-11T18:59:51Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
SceneMotion: From Agent-Centric Embeddings to Scene-Wide Forecasts [13.202036465220766]
自動運転車は、環境と対話し安全な操作を計画するために、マルチモーダルな動き予測に頼っている。我々は、複数の交通機関のシーンワイド・モーション・モードを予測するアテンションベースモデルであるSceneMotionを紹介する。このモジュールは複数のエージェント中心の埋め込みからシーン全体の潜在空間を学習し、共同予測と相互作用モデリングを可能にする。
論文参考訳（メタデータ） (2024-08-02T18:49:14Z)
DualAD: Disentangling the Dynamic and Static World for End-to-End Driving [11.379456277711379]
自動運転のための最先端のアプローチは、全体運転タスクの複数のサブタスクを単一のパイプラインに統合する。動的エージェントと静的シーン要素を分離する専用表現を提案する。 DualADというタイトルの手法は、独立に訓練されたシングルタスクネットワークよりも優れています。
論文参考訳（メタデータ） (2024-06-10T13:46:07Z)
JointMotion: Joint Self-Supervision for Joint Motion Prediction [10.44846560021422]
JointMotionは、自動運転車における関節運動予測のための自己教師付き事前訓練手法である。提案手法は,Wayformer,HPTR,Scene Transformerの各モデルにおける最終変位誤差を,それぞれ3%,8%,12%削減する。
論文参考訳（メタデータ） (2024-03-08T17:54:38Z)
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文参考訳（メタデータ） (2023-10-26T17:56:35Z)
MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-04-15T13:03:44Z)
Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。 BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文参考訳（メタデータ） (2023-02-17T18:18:27Z)
Learning to Align Sequential Actions in the Wild [123.62879270881807]
本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。我々のモデルは単調列と非単調列の両方を考慮に入れている。自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
論文参考訳（メタデータ） (2021-11-17T18:55:36Z)
Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文参考訳（メタデータ） (2021-01-14T22:21:25Z)
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。その結果,全ての評価指標について最先端の性能を示すことができた。
論文参考訳（メタデータ） (2020-07-08T02:00:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。