論文の概要: Gen-C: Populating Virtual Worlds with Generative Crowds
- arxiv url: http://arxiv.org/abs/2504.01924v1
- Date: Wed, 02 Apr 2025 17:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:18:20.606571
- Title: Gen-C: Populating Virtual Worlds with Generative Crowds
- Title(参考訳): Gen-C: ジェネレーティブな群衆で仮想世界を人口化する
- Authors: Andreas Panayiotou, Panayiotis Charalambous, Ioannis Karamouzas,
- Abstract要約: 我々は,ハイレベルな群衆行動のオーサリング作業を自動化する生成モデルGen-Cを紹介する。
Gen-Cは、実際の群衆のビデオデータの収集と注釈付けという、労働集約的で困難なタスクをバイパスする。
提案手法の有効性を,大学キャンパスと鉄道駅の2つのシナリオで実証する。
- 参考スコア(独自算出の注目度): 1.5293427903448022
- License:
- Abstract: Over the past two decades, researchers have made significant advancements in simulating human crowds, yet these efforts largely focus on low-level tasks like collision avoidance and a narrow range of behaviors such as path following and flocking. However, creating compelling crowd scenes demands more than just functional movement-it requires capturing high-level interactions between agents, their environment, and each other over time. To address this issue, we introduce Gen-C, a generative model to automate the task of authoring high-level crowd behaviors. Gen-C bypasses the labor-intensive and challenging task of collecting and annotating real crowd video data by leveraging a large language model (LLM) to generate a limited set of crowd scenarios, which are subsequently expanded and generalized through simulations to construct time-expanded graphs that model the actions and interactions of virtual agents. Our method employs two Variational Graph Auto-Encoders guided by a condition prior network: one dedicated to learning a latent space for graph structures (agent interactions) and the other for node features (agent actions and navigation). This setup enables the flexible generation of dynamic crowd interactions. The trained model can be conditioned on natural language, empowering users to synthesize novel crowd behaviors from text descriptions. We demonstrate the effectiveness of our approach in two scenarios, a University Campus and a Train Station, showcasing its potential for populating diverse virtual environments with agents exhibiting varied and dynamic behaviors that reflect complex interactions and high-level decision-making patterns.
- Abstract(参考訳): 過去20年間、研究者は人間の群衆をシミュレートする上で大きな進歩を遂げてきたが、これらの取り組みは主に衝突回避のような低レベルなタスクと、経路追従や群れのような狭い行動に焦点を当てている。
しかし、魅力的な群衆シーンを作るためには、単に機能的な動き以上のものを必要とします。
この問題に対処するために,ハイレベルな群衆行動のオーサリング作業を自動化する生成モデルであるGen-Cを導入する。
Gen-Cは、大規模言語モデル(LLM)を利用して実際の群衆映像データを収集・注釈する作業を回避し、シミュレーションによって拡張・一般化され、仮想エージェントの動作と相互作用をモデル化する時間拡張グラフを構築する。
提案手法では,2つの変分グラフオートエンコーダを用いて,グラフ構造(エージェントインタラクション)の潜時空間の学習と,ノード機能(エージェントアクションとナビゲーション)の学習を行う。
このセットアップにより、動的クラウドインタラクションのフレキシブルな生成が可能になる。
訓練されたモデルは自然言語で条件付けすることができ、ユーザーはテキスト記述から新しい群衆の振る舞いを合成することができる。
提案手法の有効性を,大学キャンパスと鉄道駅の2つのシナリオで実証し,複雑な相互作用や高レベルの意思決定パターンを反映した多様な動的行動を示すエージェントを用いて,多様な仮想環境を蓄積する可能性を示した。
関連論文リスト
- Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer [24.166147954731652]
多人数対話型モーション生成はコンピュータ・キャラクター・アニメーションにおける重要な領域であるが、未探索領域である。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、インタラクション情報が失われる。
本稿では,複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する,新しい統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-21T15:35:50Z) - Grounded Answers for Multi-agent Decision-making Problem through Generative World Model [27.263093790379024]
生成モデルは、複雑なマルチエージェント決定問題に対するスケッチ的で誤解を招くソリューションをしばしば生み出す。
本稿では,言語誘導シミュレータをマルチエージェント強化学習パイプラインに統合し,生成した回答を強化するパラダイムを示す。
特に、一貫した相互作用シーケンスと、相互作用状態における説明可能な報酬関数を生成し、未来の生成モデルを訓練するための道を開くことができる。
論文 参考訳(メタデータ) (2024-10-03T16:49:59Z) - CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation [44.9991846328409]
群衆運動生成は、アニメーションやゲームなどのエンターテイメント産業や、都市シミュレーションや計画といった戦略的分野において不可欠である。
このフレームワークはLarge Language Model(LLM)のパワーを利用して、集合的なインテリジェンスをモーション生成フレームワークに組み込む。
本フレームワークは,(1)特定のシーン状況に応じた動きや動特性の調整を学習する群集シーンプランナ,(2)必要な集合運動を効率的に合成する集合モーションジェネレータの2つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2024-07-08T17:59:36Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Relax, it doesn't matter how you get there: A new self-supervised
approach for multi-timescale behavior analysis [8.543808476554695]
我々は,2つの新しい構成要素を組み合わせた行動のマルチタスク表現学習モデルを開発した。
我々のモデルは、全体およびすべてのグローバルタスクにおいて、9つのフレームレベルタスクのうち7つのうち1番目または2番目をランク付けします。
論文 参考訳(メタデータ) (2023-03-15T17:58:48Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。