論文の概要: OccDirector: Language-Guided Behavior and Interaction Generation in 4D Occupancy Space
- arxiv url: http://arxiv.org/abs/2604.22240v1
- Date: Fri, 24 Apr 2026 05:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.355495
- Title: OccDirector: Language-Guided Behavior and Interaction Generation in 4D Occupancy Space
- Title(参考訳): OccDirector:4次元空間における言語誘導行動と相互作用生成
- Authors: Zhuding Liang, Tianyi Yan, Dubing Chen, Jiasen Zheng, Huan Zheng, Cheng-zhong Xu, Yida Wang, Kun Zhan, Jianbing Shen,
- Abstract要約: OccDirectorは自然言語のみに依存した4D占有動態を生成する。
OccDirectorは最先端の生成品質と前例のない命令フォロー機能を実現する。
- 参考スコア(独自算出の注目度): 66.35177674346156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative world models increasingly rely on 4D occupancy for realistic autonomous driving simulation. However, existing generation frameworks depend on rigid geometric conditions (e.g., explicit trajectories) or simplistic attribute-level text, failing to orchestrate complex, sequential multi-agent interactions. To address this semantic-spatiotemporal gap, we propose OccDirector, a pioneering framework that generates 4D occupancy dynamics conditioned solely on natural language. Operating as a ``scenario director'', OccDirector maps natural language scripts into physically plausible voxel dynamics without requiring geometric priors. Technically, it employs a VLM-driven Spatio-Temporal MMDiT equipped with a history-prefix anchoring strategy to ensure long-horizon interaction consistency. Furthermore, we introduce OccInteract-85k, a novel dataset uniquely annotated with multi-level language instructions: ranging from static layouts to intricate multi-agent behaviors, alongside a novel VLM-based evaluation benchmark. Extensive experiments demonstrate that OccDirector achieves state-of-the-art generation quality and unprecedented instruction-following capabilities, successfully shifting the paradigm from appearance synthesis to language-driven behavior orchestration.
- Abstract(参考訳): 生成的世界モデルは、現実的な自律運転シミュレーションに4Dの占有力にますます依存している。
しかし、既存の生成フレームワークは、厳密な幾何学的条件(例えば、明示的な軌跡)や単純な属性レベルのテキストに依存し、複雑でシーケンシャルなマルチエージェントの相互作用を編成することができない。
このセマンティック・時空間ギャップに対処するために,自然言語にのみ依存する4次元占有動態を生成する先駆的フレームワークであるOccDirectorを提案する。
OccDirectorは‘scenario Director’として動作し、幾何学的な事前処理を必要とせず、自然言語のスクリプトを物理的にもっともらしいボクセルダイナミクスにマッピングする。
技術的には、VLM駆動の時空間MMDiTを使用し、長い水平相互作用の整合性を確保するために、履歴前固定方式のアンカー戦略を備えている。
さらに,OccInteract-85kは,静的レイアウトから複雑なマルチエージェント動作まで,新しいVLMベースの評価ベンチマークとともに,多レベル言語命令を付加した新しいデータセットである。
大規模な実験により、OccDirectorは最先端の生成品質と前例のない命令追従能力を実現し、外観合成から言語駆動の動作オーケストレーションへパラダイムをシフトさせることに成功した。
関連論文リスト
- PanopticQuery: Unified Query-Time Reasoning for 4D Scenes [53.672906752290665]
4Dシーンでクエリ時間推論を統一するフレームワークであるPanopticQueryを紹介した。
提案手法は高忠実度動的再構成のための4次元ガウススプラッティングに基づいている。
動的シーンにおける言語ベースのクエリのための新しいベンチマークであるPanoptic-L4Dを提案する。
論文 参考訳(メタデータ) (2026-04-07T09:40:05Z) - Director: Instance-aware Gaussian Splatting for Dynamic Scene Modeling and Understanding [40.60302826781783]
Volumetricは、レンダリングシーンを時間的コヒーレントな4D表現としてモデル化しようとしている。
Directorは、インスタンスセグメンテーションとオープン語彙クエリを同時に可能にしながら、時間的にコヒーレントな4D再構築を実現する。
論文 参考訳(メタデータ) (2026-04-02T06:29:53Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer [40.29321632546414]
4DVGTは、トランスフォーマーベースの最初の4D言語グラウンドのためのフィードフォワード統合フレームワークである。
幾何学的知覚と言語アライメントを単一のアーキテクチャに統合する。
複数のダイナミックシーンを共同でトレーニングし、推論中に直接適用することができる。
論文 参考訳(メタデータ) (2025-12-04T18:15:27Z) - ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - SIMS: Simulating Stylized Human-Scene Interactions with Retrieval-Augmented Script Generation [38.96874874208242]
我々は,ハイレベルなスクリプト駆動の意図を低レベルな制御ポリシーでシームレスにブリッジするSIMSという新しい階層型フレームワークを導入する。
具体的には,Large Language Models with Retrieval-Augmented Generationを用いて,一貫性のある多種多様な長文スクリプトを生成する。
生成したスクリプトからテキストを埋め込み、スタイリスティックな手順をエンコードする多用途多条件物理ベースの制御ポリシーも開発されている。
論文 参考訳(メタデータ) (2024-11-29T18:36:15Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。