Fugu-MT 論文翻訳(概要): TPA-Net: Generate A Dataset for Text to Physics-based Animation

論文の概要: TPA-Net: Generate A Dataset for Text to Physics-based Animation

arxiv url: http://arxiv.org/abs/2211.13887v1
Date: Fri, 25 Nov 2022 04:26:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 14:32:53.272240
Title: TPA-Net: Generate A Dataset for Text to Physics-based Animation
Title（参考訳）: tpa-net: テキストから物理アニメーションへのデータセットの生成
Authors: Yuxing Qiu, Feng Gao, Minchen Li, Govind Thattai, Yin Yang, Chenfanfu Jiang
Abstract要約: 本稿では,多数のマルチモーダル3Dテキスト・ツー・ビデオ・シミュレーション(T2V/S)データとのギャップを狭めるために,自律データ生成手法とデータセットを提案する。我々は, 弾性変形, 材料破壊, 衝突, 乱流など, 様々なシナリオをシミュレートするために, 最先端の物理シミュレーション手法を利用する。高品質なマルチビューレンダリングビデオは、T2V、Neural Radiance Fields (NeRF)、その他のコミュニティの利益のために提供されている。
参考スコア（独自算出の注目度）: 27.544423833402572
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent breakthroughs in Vision-Language (V&L) joint research have achieved remarkable results in various text-driven tasks. High-quality Text-to-video (T2V), a task that has been long considered mission-impossible, was proven feasible with reasonably good results in latest works. However, the resulting videos often have undesired artifacts largely because the system is purely data-driven and agnostic to the physical laws. To tackle this issue and further push T2V towards high-level physical realism, we present an autonomous data generation technique and a dataset, which intend to narrow the gap with a large number of multi-modal, 3D Text-to-Video/Simulation (T2V/S) data. In the dataset, we provide high-resolution 3D physical simulations for both solids and fluids, along with textual descriptions of the physical phenomena. We take advantage of state-of-the-art physical simulation methods (i) Incremental Potential Contact (IPC) and (ii) Material Point Method (MPM) to simulate diverse scenarios, including elastic deformations, material fractures, collisions, turbulence, etc. Additionally, high-quality, multi-view rendering videos are supplied for the benefit of T2V, Neural Radiance Fields (NeRF), and other communities. This work is the first step towards fully automated Text-to-Video/Simulation (T2V/S). Live examples and subsequent work are at https://sites.google.com/view/tpa-net.
Abstract（参考訳）: 近年のVision-Language(V&L)共同研究は、様々なテキスト駆動タスクにおいて顕著な成果を上げている。 t2v(high-quality text-to-video)は、ミッションが不可能であると考えられてきたタスクで、最新の作品でかなり良い結果が得られることが証明された。しかし、生成されたビデオは、多くの場合、システムが純粋にデータ駆動であり、物理法則に従わないため、望ましくないアーティファクトを持っている。この問題に対処し、さらにT2Vを高レベルな物理リアリズムに推し進めるために、多数のマルチモーダル3Dテキスト・ビデオ・シミュレーション(T2V/S)データでギャップを狭める自律データ生成技術とデータセットを提案する。データセットでは、固体と流体の両方に対する高分解能3次元物理シミュレーションと、物理現象のテキスト記述を提供する。我々は最先端物理シミュレーション手法を利用する (i)増分ポテンシャル接触(ipc)及び (ii)弾性変形、材料破壊、衝突、乱流等を含む多様なシナリオをシミュレートするための材料点法(mpm) さらに、T2VやNeural Radiance Fields(NeRF)などのコミュニティのために、高品質なマルチビューレンダリングビデオが提供されている。この作業は、完全に自動化されたText-to-Video/Simulation(T2V/S)に向けた最初のステップである。実例とその後の作業はhttps://sites.google.com/view/tpa-netにある。

関連論文リスト

Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models [14.187604603759784]
本稿では,テキスト・ビデオ・システムの物理的推論能力を評価するためのベンチマークであるPhysVidBenchを紹介する。各プロンプトに対して、さまざまな最先端モデルを用いてビデオを生成し、3段階評価パイプラインを採用する。 PhysVidBenchは、生成ビデオモデルにおける物理コモンセンスを評価するための構造化、解釈可能なフレームワークを提供する。
論文参考訳（メタデータ） (2025-07-21T17:30:46Z)
Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation [28.79821758835663]
DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
論文参考訳（メタデータ） (2025-05-27T18:26:43Z)
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation [43.71082938654985]
本稿では,物理原理をT2Vモデルに分解し,組み込むための有効なフレームワークであるWorld Simulator Assistant(WISA)を紹介する。 WISAは物理的原理をテキストの物理的記述、質的な物理的カテゴリ、量的物理的特性に分解する。定性的な物理カテゴリに基づいて収集された新しいビデオデータセットWISA-32Kを提案する。
論文参考訳（メタデータ） (2025-03-11T08:10:03Z)
Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos [61.925837909969815]
我々は,インターネット上のRGBビデオを利用して日常の人間行動に基づいてタスクを再構築する新しいフレームワークであるVideo2Policyを紹介した。本手法は投球のような複雑で困難なタスクを含む,そのようなタスクに対するRLポリシーのトレーニングに成功している。生成したシミュレーションデータは,一般的なポリシをトレーニングするためにスケールアップ可能であり,Real2Sim2Real方式で実ロボットに転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-14T03:22:03Z)
InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文参考訳（メタデータ） (2024-11-25T14:27:50Z)
Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation [9.306758077479472]
マルチモーダル基礎モデルとビデオ拡散を利用して、4次元動的シーンシミュレーションを実現する新しい手法を提案する。この統合フレームワークは、現実世界のシナリオにおける動的相互作用の正確な予測と現実的なシミュレーションを可能にする。
論文参考訳（メタデータ） (2024-11-21T18:55:23Z)
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文参考訳（メタデータ） (2024-09-27T17:59:57Z)
T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data [6.6240820702899565]
既存の方法は、表情や手の動きを除いて、身体の動きデータのみを生成する。このようなデータセットを作成しようとする最近の試みは、異なる身体部位間での運動の不整合をもたらす。部分注釈付きデータから表現力のあるテキスト・ツー・モーション生成を学習する2段階の方法であるT2M-Xを提案する。
論文参考訳（メタデータ） (2024-09-20T06:20:00Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文参考訳（メタデータ） (2022-09-29T13:59:46Z)
Make It Move: Controllable Image-to-Video Generation with Text Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文参考訳（メタデータ） (2021-12-06T07:00:36Z)
Video Generation from Text Employing Latent Path Construction for Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文参考訳（メタデータ） (2021-07-29T06:28:20Z)
Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文参考訳（メタデータ） (2020-09-01T19:17:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。