論文の概要: TPA-Net: Generate A Dataset for Text to Physics-based Animation
- arxiv url: http://arxiv.org/abs/2211.13887v1
- Date: Fri, 25 Nov 2022 04:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:32:53.272240
- Title: TPA-Net: Generate A Dataset for Text to Physics-based Animation
- Title(参考訳): tpa-net: テキストから物理アニメーションへのデータセットの生成
- Authors: Yuxing Qiu, Feng Gao, Minchen Li, Govind Thattai, Yin Yang, Chenfanfu
Jiang
- Abstract要約: 本稿では,多数のマルチモーダル3Dテキスト・ツー・ビデオ・シミュレーション(T2V/S)データとのギャップを狭めるために,自律データ生成手法とデータセットを提案する。
我々は, 弾性変形, 材料破壊, 衝突, 乱流など, 様々なシナリオをシミュレートするために, 最先端の物理シミュレーション手法を利用する。
高品質なマルチビューレンダリングビデオは、T2V、Neural Radiance Fields (NeRF)、その他のコミュニティの利益のために提供されている。
- 参考スコア(独自算出の注目度): 27.544423833402572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in Vision-Language (V&L) joint research have achieved
remarkable results in various text-driven tasks. High-quality Text-to-video
(T2V), a task that has been long considered mission-impossible, was proven
feasible with reasonably good results in latest works. However, the resulting
videos often have undesired artifacts largely because the system is purely
data-driven and agnostic to the physical laws. To tackle this issue and further
push T2V towards high-level physical realism, we present an autonomous data
generation technique and a dataset, which intend to narrow the gap with a large
number of multi-modal, 3D Text-to-Video/Simulation (T2V/S) data. In the
dataset, we provide high-resolution 3D physical simulations for both solids and
fluids, along with textual descriptions of the physical phenomena. We take
advantage of state-of-the-art physical simulation methods (i) Incremental
Potential Contact (IPC) and (ii) Material Point Method (MPM) to simulate
diverse scenarios, including elastic deformations, material fractures,
collisions, turbulence, etc. Additionally, high-quality, multi-view rendering
videos are supplied for the benefit of T2V, Neural Radiance Fields (NeRF), and
other communities. This work is the first step towards fully automated
Text-to-Video/Simulation (T2V/S). Live examples and subsequent work are at
https://sites.google.com/view/tpa-net.
- Abstract(参考訳): 近年のVision-Language(V&L)共同研究は、様々なテキスト駆動タスクにおいて顕著な成果を上げている。
t2v(high-quality text-to-video)は、ミッションが不可能であると考えられてきたタスクで、最新の作品でかなり良い結果が得られることが証明された。
しかし、生成されたビデオは、多くの場合、システムが純粋にデータ駆動であり、物理法則に従わないため、望ましくないアーティファクトを持っている。
この問題に対処し、さらにT2Vを高レベルな物理リアリズムに推し進めるために、多数のマルチモーダル3Dテキスト・ビデオ・シミュレーション(T2V/S)データでギャップを狭める自律データ生成技術とデータセットを提案する。
データセットでは、固体と流体の両方に対する高分解能3次元物理シミュレーションと、物理現象のテキスト記述を提供する。
我々は最先端物理シミュレーション手法を利用する
(i)増分ポテンシャル接触(ipc)及び
(ii)弾性変形、材料破壊、衝突、乱流等を含む多様なシナリオをシミュレートするための材料点法(mpm)
さらに、T2VやNeural Radiance Fields(NeRF)などのコミュニティのために、高品質なマルチビューレンダリングビデオが提供されている。
この作業は、完全に自動化されたText-to-Video/Simulation(T2V/S)に向けた最初のステップである。
実例とその後の作業はhttps://sites.google.com/view/tpa-netにある。
関連論文リスト
- InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation [9.306758077479472]
マルチモーダル基礎モデルとビデオ拡散を利用して、4次元動的シーンシミュレーションを実現する新しい手法を提案する。
この統合フレームワークは、現実世界のシナリオにおける動的相互作用の正確な予測と現実的なシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-11-21T18:55:23Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data [6.6240820702899565]
既存の方法は、表情や手の動きを除いて、身体の動きデータのみを生成する。
このようなデータセットを作成しようとする最近の試みは、異なる身体部位間での運動の不整合をもたらす。
部分注釈付きデータから表現力のあるテキスト・ツー・モーション生成を学習する2段階の方法であるT2M-Xを提案する。
論文 参考訳(メタデータ) (2024-09-20T06:20:00Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。