論文の概要: TPA-Net: Generate A Dataset for Text to Physics-based Animation
- arxiv url: http://arxiv.org/abs/2211.13887v1
- Date: Fri, 25 Nov 2022 04:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:32:53.272240
- Title: TPA-Net: Generate A Dataset for Text to Physics-based Animation
- Title(参考訳): tpa-net: テキストから物理アニメーションへのデータセットの生成
- Authors: Yuxing Qiu, Feng Gao, Minchen Li, Govind Thattai, Yin Yang, Chenfanfu
Jiang
- Abstract要約: 本稿では,多数のマルチモーダル3Dテキスト・ツー・ビデオ・シミュレーション(T2V/S)データとのギャップを狭めるために,自律データ生成手法とデータセットを提案する。
我々は, 弾性変形, 材料破壊, 衝突, 乱流など, 様々なシナリオをシミュレートするために, 最先端の物理シミュレーション手法を利用する。
高品質なマルチビューレンダリングビデオは、T2V、Neural Radiance Fields (NeRF)、その他のコミュニティの利益のために提供されている。
- 参考スコア(独自算出の注目度): 27.544423833402572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in Vision-Language (V&L) joint research have achieved
remarkable results in various text-driven tasks. High-quality Text-to-video
(T2V), a task that has been long considered mission-impossible, was proven
feasible with reasonably good results in latest works. However, the resulting
videos often have undesired artifacts largely because the system is purely
data-driven and agnostic to the physical laws. To tackle this issue and further
push T2V towards high-level physical realism, we present an autonomous data
generation technique and a dataset, which intend to narrow the gap with a large
number of multi-modal, 3D Text-to-Video/Simulation (T2V/S) data. In the
dataset, we provide high-resolution 3D physical simulations for both solids and
fluids, along with textual descriptions of the physical phenomena. We take
advantage of state-of-the-art physical simulation methods (i) Incremental
Potential Contact (IPC) and (ii) Material Point Method (MPM) to simulate
diverse scenarios, including elastic deformations, material fractures,
collisions, turbulence, etc. Additionally, high-quality, multi-view rendering
videos are supplied for the benefit of T2V, Neural Radiance Fields (NeRF), and
other communities. This work is the first step towards fully automated
Text-to-Video/Simulation (T2V/S). Live examples and subsequent work are at
https://sites.google.com/view/tpa-net.
- Abstract(参考訳): 近年のVision-Language(V&L)共同研究は、様々なテキスト駆動タスクにおいて顕著な成果を上げている。
t2v(high-quality text-to-video)は、ミッションが不可能であると考えられてきたタスクで、最新の作品でかなり良い結果が得られることが証明された。
しかし、生成されたビデオは、多くの場合、システムが純粋にデータ駆動であり、物理法則に従わないため、望ましくないアーティファクトを持っている。
この問題に対処し、さらにT2Vを高レベルな物理リアリズムに推し進めるために、多数のマルチモーダル3Dテキスト・ビデオ・シミュレーション(T2V/S)データでギャップを狭める自律データ生成技術とデータセットを提案する。
データセットでは、固体と流体の両方に対する高分解能3次元物理シミュレーションと、物理現象のテキスト記述を提供する。
我々は最先端物理シミュレーション手法を利用する
(i)増分ポテンシャル接触(ipc)及び
(ii)弾性変形、材料破壊、衝突、乱流等を含む多様なシナリオをシミュレートするための材料点法(mpm)
さらに、T2VやNeural Radiance Fields(NeRF)などのコミュニティのために、高品質なマルチビューレンダリングビデオが提供されている。
この作業は、完全に自動化されたText-to-Video/Simulation(T2V/S)に向けた最初のステップである。
実例とその後の作業はhttps://sites.google.com/view/tpa-netにある。
関連論文リスト
- NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。