論文の概要: Generative Physical AI in Vision: A Survey
- arxiv url: http://arxiv.org/abs/2501.10928v1
- Date: Sun, 19 Jan 2025 03:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:12.929698
- Title: Generative Physical AI in Vision: A Survey
- Title(参考訳): 視覚における生成的物理AI:サーベイ
- Authors: Daochang Liu, Junyu Zhang, Anh-Dung Dinh, Eunbyung Park, Shichao Zhang, Chang Xu,
- Abstract要約: 生成人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
生成AIが進化して物理リアリズムと動的シミュレーションを統合するにつれ、その「世界シミュレータ」として機能する可能性が高まっている。
この調査は、コンピュータビジョンにおける物理学を意識した生成AIの出現する分野を体系的にレビューする。
- 参考スコア(独自算出の注目度): 25.867330158975932
- License:
- Abstract: Generative Artificial Intelligence (AI) has rapidly advanced the field of computer vision by enabling machines to create and interpret visual data with unprecedented sophistication. This transformation builds upon a foundation of generative models to produce realistic images, videos, and 3D or 4D content. Traditionally, generative models primarily focus on visual fidelity while often neglecting the physical plausibility of generated content. This gap limits their effectiveness in applications requiring adherence to real-world physical laws, such as robotics, autonomous systems, and scientific simulations. As generative AI evolves to increasingly integrate physical realism and dynamic simulation, its potential to function as a "world simulator" expands-enabling the modeling of interactions governed by physics and bridging the divide between virtual and physical realities. This survey systematically reviews this emerging field of physics-aware generative AI in computer vision, categorizing methods based on how they incorporate physical knowledge-either through explicit simulation or implicit learning. We analyze key paradigms, discuss evaluation protocols, and identify future research directions. By offering a comprehensive overview, this survey aims to help future developments in physically grounded generation for vision. The reviewed papers are summarized at https://github.com/BestJunYu/Awesome-Physics-aware-Generation.
- Abstract(参考訳): 生成人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
この変換は、現実的な画像、ビデオ、および3Dまたは4Dコンテンツを生成するための生成モデルの基礎の上に構築される。
伝統的に、生成モデルは主として視覚的忠実性に焦点を当てるが、しばしば生成されたコンテンツの物理的妥当性を無視する。
このギャップは、ロボット工学、自律システム、科学シミュレーションのような現実世界の物理法則の遵守を必要とする応用において、その効果を制限している。
生成AIが物理リアリズムと動的シミュレーションを統合するように進化するにつれて、"世界シミュレータ"として機能する可能性は、物理によって支配される相互作用のモデリングを促進し、仮想現実と物理現実の分割をブリッジする。
この調査は、コンピュータビジョンにおける物理学を意識した生成AIの出現する分野を体系的にレビューし、明示的なシミュレーションや暗黙的な学習を通じて、物理的な知識をどのように組み込むかに基づいて、手法を分類する。
我々は,鍵となるパラダイムを分析し,評価プロトコルについて議論し,今後の研究方向性を明らかにする。
包括的概要を提供することで、この調査は、視覚の物理的基盤を持つ世代における将来の発展を支援することを目的としている。
レビューされた論文はhttps://github.com/BestJunYu/Awesome-Physics-aware-Generationで要約されている。
関連論文リスト
- Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - Haptic Repurposing with GenAI [5.424247121310253]
Mixed Realityは、デジタル世界と物理的な世界を融合して、没入型人間とコンピュータのインタラクションを作ることを目指している。
本稿では,Haptic Repurposing with GenAIを紹介し,任意の物理オブジェクトをAI生成仮想アセットの適応型触覚インターフェースに変換することによってMRインタラクションを強化する革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-11T13:06:28Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events [75.94926117990435]
本研究では,AIエージェントによる直感的な物理の把握を評価するベンチマークデータセットであるX-VoEを紹介する。
X-VoEは直感的な物理モデルの説明能力を高めるためのより高いバーを確立する。
本稿では、物理力学を捉え、隠蔽対象状態を推定する説明に基づく学習システムを提案する。
論文 参考訳(メタデータ) (2023-08-21T03:28:23Z) - Physics-Informed Computer Vision: A Review and Perspectives [22.71741766133866]
機械学習フレームワークに物理情報の組み入れが、多くのアプリケーションドメインを開放し、変換している。
本稿では,250以上の物理法則によるコンピュータビジョンタスクの定式化とアプローチに関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-05-29T11:55:11Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z) - RoboTHOR: An Open Simulation-to-Real Embodied AI Platform [56.50243383294621]
インタラクティブで具体化された視覚AIの研究を民主化するためにRoboTHORを導入する。
シミュレーションで訓練されたモデルの性能は,シミュレーションと慎重に構築された物理アナログの両方で試験される場合,大きな差があることが示される。
論文 参考訳(メタデータ) (2020-04-14T20:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。