論文の概要: Exploring the Evolution of Physics Cognition in Video Generation: A Survey
- arxiv url: http://arxiv.org/abs/2503.21765v1
- Date: Thu, 27 Mar 2025 17:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:17.800041
- Title: Exploring the Evolution of Physics Cognition in Video Generation: A Survey
- Title(参考訳): 映像生成における物理認知の進化を探る:調査
- Authors: Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang,
- Abstract要約: この調査は、このギャップを埋めるためにアーキテクチャ設計とそのアプリケーションに関する包括的な概要を提供することを目的としている。
我々は、認知科学の観点から、映像生成における身体認知の進化過程を論じ、整理する。
筆者らは,(1)生成のための基本的な認識,(2)生成のための物理知識の受動的認知,(3)世界シミュレーションのための能動的認知という3段階の分類法を提案する。
- 参考スコア(独自算出の注目度): 44.305405114910904
- License:
- Abstract: Recent advancements in video generation have witnessed significant progress, especially with the rapid advancement of diffusion models. Despite this, their deficiencies in physical cognition have gradually received widespread attention - generated content often violates the fundamental laws of physics, falling into the dilemma of ''visual realism but physical absurdity". Researchers began to increasingly recognize the importance of physical fidelity in video generation and attempted to integrate heuristic physical cognition such as motion representations and physical knowledge into generative systems to simulate real-world dynamic scenarios. Considering the lack of a systematic overview in this field, this survey aims to provide a comprehensive summary of architecture designs and their applications to fill this gap. Specifically, we discuss and organize the evolutionary process of physical cognition in video generation from a cognitive science perspective, while proposing a three-tier taxonomy: 1) basic schema perception for generation, 2) passive cognition of physical knowledge for generation, and 3) active cognition for world simulation, encompassing state-of-the-art methods, classical paradigms, and benchmarks. Subsequently, we emphasize the inherent key challenges in this domain and delineate potential pathways for future research, contributing to advancing the frontiers of discussion in both academia and industry. Through structured review and interdisciplinary analysis, this survey aims to provide directional guidance for developing interpretable, controllable, and physically consistent video generation paradigms, thereby propelling generative models from the stage of ''visual mimicry'' towards a new phase of ''human-like physical comprehension''.
- Abstract(参考訳): 近年のビデオ生成の進歩は、特に拡散モデルの急速な進歩で顕著な進歩をみせている。
生成されたコンテンツはしばしば物理学の基本法則に違反し、「視覚的現実主義だが身体的不条理」というジレンマに陥る。
研究者たちはビデオ生成における物理的忠実さの重要性をますます認識し始め、実世界の動的シナリオをシミュレートする生成システムに運動表現や物理知識のようなヒューリスティックな物理的認知を統合することを試みた。
この分野では体系的な概要が欠如していることを考えると、この調査はこのギャップを埋めるためにアーキテクチャ設計とその応用の包括的概要を提供することを目的としている。
具体的には、認知科学の観点から、映像生成における身体認知の進化過程を論じ、整理し、3段階の分類法を提案する。
1) 生成のための基本的なスキーマ認識
2 世代別身体知識の受動的認知、及び
3) 最先端の手法,古典的パラダイム,ベンチマークを含む世界シミュレーションの活発な認知。
その後,本領域における本質的な課題を強調し,今後の研究の道筋を示すとともに,学術と産業の両分野における議論のフロンティアの進展に寄与する。
本研究の目的は、構造化されたレビューと学際的分析を通じて、解釈可能な、制御可能な、物理的に一貫したビデオ生成パラダイムを開発するための方向性ガイダンスを提供することであり、それによって「視覚的模倣」の段階から「人間のような物理的理解」の新たな段階へと生成モデルを推し進めることである。
関連論文リスト
- Grounding Creativity in Physics: A Brief Survey of Physical Priors in AIGC [14.522189177415724]
AI生成コンテンツの最近の進歩は、3Dおよび4D生成のリアリズムを著しく改善した。
既存の手法の多くは、基礎となる物理原理を無視しながら外観整合性を優先している。
本調査では,物理的制約が3次元および4次元生成にどのように組み込まれているかを体系的に解析する物理認識生成法について概説する。
論文 参考訳(メタデータ) (2025-02-10T20:13:16Z) - Generative Physical AI in Vision: A Survey [25.867330158975932]
生成人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
生成AIが進化して物理リアリズムと動的シミュレーションを統合するにつれ、その「世界シミュレータ」として機能する可能性が高まっている。
この調査は、コンピュータビジョンにおける物理学を意識した生成AIの出現する分野を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - Physics meets Topology: Physics-informed topological neural networks for learning rigid body dynamics [6.675805308519987]
剛体力学と学習衝突相互作用をモデル化するための新しい枠組みを提案する。
そこで本研究では,物理法則を直接モデルに組み込む物理インフォームドメッセージパッシングニューラルアーキテクチャを提案する。
この研究は、様々な科学的・工学的な領域にまたがる応用において、マルチエンタリティ・ダイナミックな相互作用の課題に対処する。
論文 参考訳(メタデータ) (2024-11-18T11:03:15Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - Visual cognition in multimodal large language models [12.603212933816206]
近年の進歩は、人間のような認知能力をエミュレートする可能性への関心を再燃させた。
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z) - A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Human Motion Generation: A Survey [67.38982546213371]
人間の動き生成は、自然の人間のポーズシーケンスを生成し、現実世界の応用に大きな可能性を示すことを目的としている。
この分野のほとんどの研究は、テキスト、オーディオ、シーンコンテキストなどの条件信号に基づいて人間の動きを生成することに焦点を当てている。
本稿では,人間の動作生成に関する総合的な文献レビューを紹介する。
論文 参考訳(メタデータ) (2023-07-20T14:15:20Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - A Survey on Machine Learning Approaches for Modelling Intuitive Physics [1.3190581566723918]
直観物理学は直観物理学として知られる認知能力です
機械認知のための直感的な物理をモデル化する現代のアプローチの多くは、認知科学の文献から着想を得たものである。
本稿では、直感的な物理に触発された深層学習手法における最近の進歩と技術に関する包括的調査について述べる。
論文 参考訳(メタデータ) (2022-02-14T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。