論文の概要: Event-Driven Storytelling with Multiple Lifelike Humans in a 3D Scene
- arxiv url: http://arxiv.org/abs/2507.19232v1
- Date: Fri, 25 Jul 2025 12:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.960922
- Title: Event-Driven Storytelling with Multiple Lifelike Humans in a 3D Scene
- Title(参考訳): 複数生活型人間によるイベント駆動ストーリーテリング
- Authors: Donggeun Lim, Jinseok Bae, Inwoo Hwang, Seungmin Lee, Hwanhee Lee, Young Min Kim,
- Abstract要約: 我々は,複数の人間の文脈運動を生かした,生き生きとした仮想的な動的シーンを生成するフレームワークを提案する。
我々は,大言語モデル(LLM)のパワーを適応させ,テキスト入力における文脈的複雑さを解消する。
スケーラブルで包括的なコンテキストを提供するために、ハイレベルなモジュールを採用しています。
- 参考スコア(独自算出の注目度): 13.70771642812974
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we propose a framework that creates a lively virtual dynamic scene with contextual motions of multiple humans. Generating multi-human contextual motion requires holistic reasoning over dynamic relationships among human-human and human-scene interactions. We adapt the power of a large language model (LLM) to digest the contextual complexity within textual input and convert the task into tangible subproblems such that we can generate multi-agent behavior beyond the scale that was not considered before. Specifically, our event generator formulates the temporal progression of a dynamic scene into a sequence of small events. Each event calls for a well-defined motion involving relevant characters and objects. Next, we synthesize the motions of characters at positions sampled based on spatial guidance. We employ a high-level module to deliver scalable yet comprehensive context, translating events into relative descriptions that enable the retrieval of precise coordinates. As the first to address this problem at scale and with diversity, we offer a benchmark to assess diverse aspects of contextual reasoning. Benchmark results and user studies show that our framework effectively captures scene context with high scalability. The code and benchmark, along with result videos, are available at our project page: https://rms0329.github.io/Event-Driven-Storytelling/.
- Abstract(参考訳): そこで本研究では,複数の人間の文脈運動を伴う,生き生きとした仮想的な動的シーンを生成するフレームワークを提案する。
マルチヒューマン・コンテクスト・モーションの生成には、人間-人間の相互作用と人間-シーンの相互作用の間の動的関係に対する全体論的推論が必要である。
大規模言語モデル(LLM)のパワーを応用して,テキスト入力中の文脈的複雑さを解消し,タスクを有形サブプロブレムに変換することで,これまで考えられていなかったスケールを超えたマルチエージェント動作を生成できる。
具体的には、イベント生成器は、動的シーンの時間的進行を、小さなイベントのシーケンスに定式化する。
各イベントは、関連する文字とオブジェクトを含む明確に定義された動作を要求する。
次に、空間的誘導に基づいて、サンプリングされた位置における文字の動きを合成する。
我々は、スケーラブルで包括的なコンテキストを提供するために高レベルのモジュールを使用し、イベントを相対的な記述に変換することで、正確な座標の検索を可能にします。
この問題を大規模かつ多様性で最初に解決する手段として、コンテキスト推論の多様な側面を評価するためのベンチマークを提供する。
ベンチマーク結果とユーザスタディにより、我々のフレームワークは、高いスケーラビリティでシーンコンテキストを効果的にキャプチャします。
コードとベンチマークと結果のビデオは、プロジェクトページで公開されている。
関連論文リスト
- Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras [6.174442475414146]
Talk2Eventは、イベントベースの知覚において、言語駆動のオブジェクトグラウンドのための最初の大規模ベンチマークである。
我々は3万以上の検証された参照表現を提供し、それぞれに4つの基底属性を富ませる。
マルチ属性表現を動的に融合する属性認識基盤フレームワークであるEventReferを提案する。
論文 参考訳(メタデータ) (2025-07-23T16:29:52Z) - SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control [36.22743674288336]
SCENICは仮想シーン内の動的地形に適応する人間の動きを生成するために設計された拡散モデルである。
本システムは,シーン制約を維持しながら,異なる動作スタイル間のシームレスな遷移を実現する。
私たちのコード、データセット、モデルはurlhttps://virtual humans.mpi-inf.mpg.de/scenic/でリリースされます。
論文 参考訳(メタデータ) (2024-12-20T08:25:15Z) - SIMS: Simulating Stylized Human-Scene Interactions with Retrieval-Augmented Script Generation [38.96874874208242]
我々は,ハイレベルなスクリプト駆動の意図を低レベルな制御ポリシーでシームレスにブリッジするSIMSという新しい階層型フレームワークを導入する。
具体的には,Large Language Models with Retrieval-Augmented Generationを用いて,一貫性のある多種多様な長文スクリプトを生成する。
生成したスクリプトからテキストを埋め込み、スタイリスティックな手順をエンコードする多用途多条件物理ベースの制御ポリシーも開発されている。
論文 参考訳(メタデータ) (2024-11-29T18:36:15Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - Generating Human Motion in 3D Scenes from Text Descriptions [60.04976442328767]
本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。
複雑な問題を2つのより管理可能なサブプロブレムに分解する新しい手法を提案する。
対象オブジェクトの言語グラウンド化には、大きな言語モデルのパワーを活用し、モーション生成には、オブジェクト中心のシーン表現を設計する。
論文 参考訳(メタデータ) (2024-05-13T14:30:12Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - AttT2M: Text-Driven Human Motion Generation with Multi-Perspective
Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。
本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-09-02T02:18:17Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。