論文の概要: JointDiff: Bridging Continuous and Discrete in Multi-Agent Trajectory Generation
- arxiv url: http://arxiv.org/abs/2509.22522v1
- Date: Fri, 26 Sep 2025 16:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.569003
- Title: JointDiff: Bridging Continuous and Discrete in Multi-Agent Trajectory Generation
- Title(参考訳): JointDiff: マルチエージェント軌道生成における連続的および離散的なブリッジ
- Authors: Guillem Capellera, Luis Ferraz, Antonio Rubio, Alexandre Alahi, Antonio Agudo,
- Abstract要約: 生成モデルは、しばしば連続したデータと離散的なイベントを別々のプロセスとして扱う。
このギャップを埋めるために、連続時間データと同期離散イベントを同時に生成してこれらの2つのプロセス間の相互作用を設計した新しい拡散フレームワークであるJointDiffを導入する。
JointDiffは最先端のパフォーマンスを実現し、インタラクティブシステムのための現実的で制御可能なモデルを構築するために、ジョイントモデリングが不可欠であることを実証している。
- 参考スコア(独自算出の注目度): 75.58351043849385
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative models often treat continuous data and discrete events as separate processes, creating a gap in modeling complex systems where they interact synchronously. To bridge this gap, we introduce JointDiff, a novel diffusion framework designed to unify these two processes by simultaneously generating continuous spatio-temporal data and synchronous discrete events. We demonstrate its efficacy in the sports domain by simultaneously modeling multi-agent trajectories and key possession events. This joint modeling is validated with non-controllable generation and two novel controllable generation scenarios: weak-possessor-guidance, which offers flexible semantic control over game dynamics through a simple list of intended ball possessors, and text-guidance, which enables fine-grained, language-driven generation. To enable the conditioning with these guidance signals, we introduce CrossGuid, an effective conditioning operation for multi-agent domains. We also share a new unified sports benchmark enhanced with textual descriptions for soccer and football datasets. JointDiff achieves state-of-the-art performance, demonstrating that joint modeling is crucial for building realistic and controllable generative models for interactive systems.
- Abstract(参考訳): 生成モデルは、しばしば連続したデータと離散的なイベントを別々のプロセスとして扱う。
このギャップを埋めるために、連続時空間データと同期離散イベントを同時に生成することでこれら2つのプロセスを統一する新しい拡散フレームワークであるJointDiffを導入する。
スポーツ分野では,マルチエージェント・トラジェクトリとキー保持イベントを同時にモデル化し,その効果を実証する。
このジョイントモデリングは、制御不能な生成と、2つの新しい制御可能な生成シナリオで検証されている。
これらの誘導信号で条件付けを可能にするために,マルチエージェント領域に対する効果的な条件付け操作であるCrossGuidを導入する。
また、サッカーとサッカーのデータセットのテキスト記述を拡張した新しい統合スポーツベンチマークも共有しています。
JointDiffは最先端のパフォーマンスを実現し、インタラクティブシステムのための現実的で制御可能な生成モデルを構築するために、ジョイントモデリングが不可欠であることを実証している。
関連論文リスト
- Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。
各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文 参考訳(メタデータ) (2025-06-09T16:20:20Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.84458417662404]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - Multi-Resolution Generative Modeling of Human Motion from Limited Data [3.5229503563299915]
限られたトレーニングシーケンスから人間の動きを合成することを学ぶ生成モデルを提案する。
このモデルは、骨格の畳み込み層とマルチスケールアーキテクチャを統合することで、人間の動きパターンを順応的にキャプチャする。
論文 参考訳(メタデータ) (2024-11-25T15:36:29Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。