論文の概要: ChatDyn: Language-Driven Multi-Actor Dynamics Generation in Street Scenes
- arxiv url: http://arxiv.org/abs/2412.08685v1
- Date: Wed, 11 Dec 2024 18:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:49.741001
- Title: ChatDyn: Language-Driven Multi-Actor Dynamics Generation in Street Scenes
- Title(参考訳): ChatDyn: ストリートシーンにおける言語駆動型マルチアクタダイナミクス生成
- Authors: Yuxi Wei, Jingbo Wang, Yuwen Du, Dingju Wang, Liang Pan, Chenxin Xu, Yao Feng, Bo Dai, Siheng Chen,
- Abstract要約: ChatDynは、言語命令に基づいてストリートシーンのリアルなアクセシブ・ダイナミクスを生成できるシステムである。
複雑な言語による正確な制御を実現するため、ChatDynはマルチLLMエージェントロールプレイングアプローチを採用している。
計画に基づいて現実的なきめ細かいダイナミクスを生成するため、ChatDynは2つの新しいエグゼキュータを設計した。
- 参考スコア(独自算出の注目度): 45.27248373700126
- License:
- Abstract: Generating realistic and interactive dynamics of traffic participants according to specific instruction is critical for street scene simulation. However, there is currently a lack of a comprehensive method that generates realistic dynamics of different types of participants including vehicles and pedestrians, with different kinds of interactions between them. In this paper, we introduce ChatDyn, the first system capable of generating interactive, controllable and realistic participant dynamics in street scenes based on language instructions. To achieve precise control through complex language, ChatDyn employs a multi-LLM-agent role-playing approach, which utilizes natural language inputs to plan the trajectories and behaviors for different traffic participants. To generate realistic fine-grained dynamics based on the planning, ChatDyn designs two novel executors: the PedExecutor, a unified multi-task executor that generates realistic pedestrian dynamics under different task plannings; and the VehExecutor, a physical transition-based policy that generates physically plausible vehicle dynamics. Extensive experiments show that ChatDyn can generate realistic driving scene dynamics with multiple vehicles and pedestrians, and significantly outperforms previous methods on subtasks. Code and model will be available at https://vfishc.github.io/chatdyn.
- Abstract(参考訳): 街路シミュレーションでは,特定の指示に従って交通参加者のリアルかつインタラクティブなダイナミクスを生成することが重要である。
しかし、現在、車と歩行者を含む様々な種類の参加者の現実的なダイナミクスを生成する包括的な方法が欠如している。
本稿では,ChatDynについて紹介する。ChatDynは,対話的,制御可能な,現実的なアクセシビリティダイナミクスを,言語指導に基づくストリートシーンで生成できる最初のシステムである。
複雑な言語による正確な制御を実現するため、ChatDynはマルチLLMエージェントロールプレイングアプローチを採用している。
計画に基づいて現実的な粒度のダイナミックスを生成するため、ChatDynはPedExecutorと、異なるタスクプランの下で現実的な歩行者ダイナミクスを生成する統合マルチタスクエグゼキュータと、物理的に可算な車両ダイナミクスを生成する物理遷移ベースのポリシーであるVehExecutorという2つの新しいエグゼキュータを設計した。
大規模な実験により、ChatDynは複数の車両と歩行者で現実的な走行シーンのダイナミクスを生成でき、サブタスクにおける従来の手法よりも大幅に優れていた。
コードとモデルはhttps://vfishc.github.io/chatdyn.comから入手できる。
関連論文リスト
- InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模ビデオデータからインタラクティブなダイナミクスを学習することで、大きなビデオファンデーションモデルがニューラルと暗黙の物理シミュレータの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。
我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文 参考訳(メタデータ) (2024-12-03T12:31:44Z) - SIMS: Simulating Human-Scene Interactions with Real World Script Planning [33.31213669502036]
本稿では,長期的物理的プラプティブルなヒューマン・シーンインタラクションの計画と制御のための新しい枠組みを提案する。
大規模言語モデル(LLM)は論理的なストーリーラインを理解し、生成することができる。
これを活用することで、言語理解とシーン理解の両方を実現する二重認識ポリシーを利用する。
論文 参考訳(メタデータ) (2024-11-29T18:36:15Z) - Language-Driven Interactive Traffic Trajectory Generation [45.28516832432081]
対話型トラフィックトラジェクトリを生成するための,最初の言語駆動型トラフィックトラジェクトリであるInteractTrajを提案する。
対話型トラフィックトラジェクトリを生成するために,対話型機能アグリゲーションを用いたコード・ツー・トラジェクトリ・デコーダを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:38:36Z) - Tactics2D: A Highly Modular and Extensible Simulator for Driving Decision-making [24.795867304772404]
既存のシミュレータは、様々なシナリオや、交通参加者のためのインタラクティブな振る舞いモデルで不足することが多い。
Tactics2Dは、道路要素、交通規制、行動モデル、車両の物理シミュレーション、イベント検出機構を含む、交通シナリオ構築へのモジュラーアプローチを採用する。
ユーザは、パブリックデータセットとユーザによる実世界のデータの両方を活用することで、さまざまなシナリオで意思決定モデルを駆動するパフォーマンスを効果的に評価できる。
論文 参考訳(メタデータ) (2023-11-18T12:31:34Z) - TrafficBots: Towards World Models for Autonomous Driving Simulation and
Motion Prediction [149.5716746789134]
我々は,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示した。
動作予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介する。
オープンモーションデータセットの実験は、TrafficBotsが現実的なマルチエージェント動作をシミュレートできることを示している。
論文 参考訳(メタデータ) (2023-03-07T18:28:41Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - SceneGen: Learning to Generate Realistic Traffic Scenes [92.98412203941912]
私たちは、ルールと分布の必要性を緩和するトラフィックシーンのニューラルオートレグレッシブモデルであるSceneGenを紹介します。
実トラフィックシーンの分布を忠実にモデル化するSceneGenの能力を実証する。
論文 参考訳(メタデータ) (2021-01-16T22:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。