論文の概要: Language-driven Scene Synthesis using Multi-conditional Diffusion Model
- arxiv url: http://arxiv.org/abs/2310.15948v1
- Date: Tue, 24 Oct 2023 15:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:59:39.183348
- Title: Language-driven Scene Synthesis using Multi-conditional Diffusion Model
- Title(参考訳): 多条件拡散モデルを用いた言語駆動シーン合成
- Authors: An Vuong, Minh Nhat Vu, Toan Tien Nguyen, Baoru Huang, Dzung Nguyen,
Thieu Vo, Anh Nguyen
- Abstract要約: 本研究では,文章のプロンプトや人間の動き,既存のオブジェクトを組み込んだシーン合成タスクを提案する。
他の単一条件合成タスクとは異なり、我々の問題は複数の条件を伴い、それらを統一された空間に処理および符号化するための戦略を必要とする。
提案手法は,最先端のベンチマークより優れ,自然なシーン編集が可能となる。
- 参考スコア(独自算出の注目度): 5.76447610656007
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene synthesis is a challenging problem with several industrial
applications. Recently, substantial efforts have been directed to synthesize
the scene using human motions, room layouts, or spatial graphs as the input.
However, few studies have addressed this problem from multiple modalities,
especially combining text prompts. In this paper, we propose a language-driven
scene synthesis task, which is a new task that integrates text prompts, human
motion, and existing objects for scene synthesis. Unlike other single-condition
synthesis tasks, our problem involves multiple conditions and requires a
strategy for processing and encoding them into a unified space. To address the
challenge, we present a multi-conditional diffusion model, which differs from
the implicit unification approach of other diffusion literature by explicitly
predicting the guiding points for the original data distribution. We
demonstrate that our approach is theoretically supportive. The intensive
experiment results illustrate that our method outperforms state-of-the-art
benchmarks and enables natural scene editing applications. The source code and
dataset can be accessed at https://lang-scene-synth.github.io/.
- Abstract(参考訳): シーン合成はいくつかの産業応用において難しい問題である。
近年,人間の動きや部屋のレイアウト,空間グラフを入力としてシーンを合成する取り組みが盛んに行われている。
しかし、この問題を複数のモダリティ、特にテキストプロンプトを組み合わせることで解決した研究はほとんどない。
本稿では,文章のプロンプト,人間の動き,既存のシーン合成用オブジェクトを統合する新しいタスクである,言語駆動型シーン合成タスクを提案する。
他の単一条件合成タスクとは異なり、この問題は複数の条件を伴い、それらを統一された空間に処理およびエンコードするための戦略を必要とする。
この課題に対処するために、原データ分布の導出点を明示的に予測することにより、他の拡散文学の暗黙の統合アプローチとは異なる多条件拡散モデルを提案する。
我々のアプローチは理論的に支持的であることを実証する。
集中実験の結果,本手法は最先端ベンチマークよりも優れており,自然なシーン編集アプリケーションを実現する。
ソースコードとデータセットはhttps://lang-scene-synth.github.io/でアクセスできる。
関連論文リスト
- SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control [36.22743674288336]
SCENICは仮想シーン内の動的地形に適応する人間の動きを生成するために設計された拡散モデルである。
本システムは,シーン制約を維持しながら,異なる動作スタイル間のシームレスな遷移を実現する。
私たちのコード、データセット、モデルはurlhttps://virtual humans.mpi-inf.mpg.de/scenic/でリリースされます。
論文 参考訳(メタデータ) (2024-12-20T08:25:15Z) - Diffusion Implicit Policy for Unpaired Scene-aware Motion Synthesis [48.65197562914734]
本研究では,シーン認識動作合成のための統合フレームワークDIPを提案する。
本フレームワークでは,トレーニング中の動作合成から人間とシーンのインタラクションを分離する。
本研究の枠組みは, 切削工法よりも動作の自然性や相互作用の可視性が高いことを示す。
論文 参考訳(メタデータ) (2024-12-03T08:34:41Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Purposer: Putting Human Motion Generation in Context [30.706219830149504]
本研究では,3次元屋内シーンに人間の動きを再現する新しい手法を提案する。
シーン内のパス、ターゲットポーズ、過去の動き、そして3Dポイントの雲として表されるシーンなど、様々な条件信号の組み合わせで制御できる。
論文 参考訳(メタデータ) (2024-04-19T15:16:04Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - End-to-End Optimization of Scene Layout [56.80294778746068]
シーングラフに条件付きシーンレイアウト合成のためのエンド・ツー・エンド変分生成モデルを提案する。
シーングラフを抽象的だが汎用的な表現として使用し、多様なシーンレイアウトの合成を誘導する。
論文 参考訳(メタデータ) (2020-07-23T01:35:55Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。