論文の概要: Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
- arxiv url: http://arxiv.org/abs/2604.28185v1
- Date: Thu, 30 Apr 2026 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.24833
- Title: Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
- Title(参考訳): 新しい時代のビジュアル・ジェネレーション:原子マッピングからエージェント・ワールド・モデリングへの進化
- Authors: Keming Wu, Zuhao Yang, Kaichen Zhang, Shizun Wang, Haowei Zhu, Sicong Leng, Zhongyu Yang, Qijie Wang, Sudong Wang, Ziting Wang, Zili Wang, Hui Zhang, Haonan Wang, Hang Zhou, Yifan Pu, Xingxuan Li, Fangneng Zhan, Bo Li, Lidong Bing, Yuxin Song, Ziwei Liu, Wenhu Chen, Jingdong Wang, Xinchao Wang, Xiaojuan Qi, Shijian Lu, Bin Wang,
- Abstract要約: 我々は、この分野は外観合成を超えて知的視覚生成へと進むべきであると論じている。
本稿では, 原子生成, 条件生成, インコンテキスト生成, エージェント生成, 世界モデル生成という5段階の分類法を紹介する。
我々は、フローマッチング、統合された理解・生成モデル、視覚表現の改善、後トレーニング、報酬モデリング、データキュレーション、サンプリングアクセラレーションなど、主要な技術ドライバを解析する。
- 参考スコア(独自算出の注目度): 183.5907213030813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.
- Abstract(参考訳): 最近の視覚生成モデルは、フォトリアリズム、タイポグラフィー、インストラクションフォロー、インタラクティブな編集において大きな進歩を遂げているが、それでも空間的推論、永続的状態、長期的一貫性、因果的理解に苦慮している。
この分野は、外見合成から知的な視覚生成へと、構造、ダイナミクス、ドメイン知識、因果関係に根ざした可視的視覚に移行すべきである、と我々は主張する。
このシフトを実現するために、我々は、受動的レンダラーから対話的、エージェント的、世界認識ジェネレータへ進化する、原子生成、条件生成、インコンテキスト生成、エージェント生成、ワールドモデリングジェネレーションという5段階の分類を導入した。
我々は,フローマッチング,統合理解・生成モデル,視覚表現の改善,訓練後モデリング,報酬モデリング,データキュレーション,合成データ蒸留,サンプリングアクセラレーションなど,主要な技術的要因を分析した。
さらに, 構造的, 時間的, 因果的障害が欠如している場合に, 知覚的品質を強調し, 進行度を過大評価する傾向がみられた。
このロードマップは、ベンチマークレビュー、Wildでのストレステスト、専門家が制約されたケーススタディを組み合わせることで、次世代のインテリジェントビジュアル生成システムを理解し、評価し、前進するための能力中心のレンズを提供する。
関連論文リスト
- DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving [49.11389494068169]
我々は、生成駆動世界モデルのための最初の総合的なベンチマークであるDrivingGenを提示する。
DrivingGenは、駆動データセットとインターネットスケールのビデオソースの両方から収集されたさまざまな評価データセットを組み合わせる。
一般的なモデルは良く見えるが物理を破るが、運転に特化したものは現実的に動きを捉えているが、視界の質は遅れている。
論文 参考訳(メタデータ) (2026-01-04T13:36:21Z) - Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning [54.07026389388881]
第1回リアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。
RealRAGは、生成モデルの知識ギャップを克服するために、現実世界の画像の学習と検索によって、細粒で目に見えない新しいオブジェクトを生成する。
本フレームワークは, 生成モデルに対するきめ細かな視覚的知識を統合し, 歪み問題に対処し, オブジェクト生成における現実性を改善する。
論文 参考訳(メタデータ) (2025-02-02T16:41:54Z) - Generative Physical AI in Vision: A Survey [78.07014292304373]
遺伝子人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
この変換は、現実的な画像、ビデオ、および3D/4Dコンテンツを生成するための生成モデルの基礎の上に構築されている。
生成モデルが進化して物理リアリズムと動的シミュレーションを統合するにつれ、「世界シミュレータ」として機能する可能性が拡大する。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文 参考訳(メタデータ) (2024-11-23T10:06:18Z) - A Survey on Vision Autoregressive Model [15.042485771127346]
自然言語処理(NLP)における自己回帰モデルの性能を実証した
NLP分野での顕著な成功にインスパイアされた自己回帰モデルは、近年コンピュータビジョンにおいて集中的に研究されている。
本稿では,既存の手法の分類学の発展を含む,視覚自己回帰モデルに関する体系的なレビューを行う。
論文 参考訳(メタデータ) (2024-11-13T14:59:41Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
KITTENはKnowledge-InTensiveイメージジェネラティオンのベンチマークである。
我々は最新のテキスト・画像モデルと検索強化モデルについて体系的な研究を行う。
分析によると、高度なテキスト・ツー・イメージモデルでさえ、エンティティの正確な視覚的詳細を生成できない。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。