論文の概要: VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation
- arxiv url: http://arxiv.org/abs/2603.02681v1
- Date: Tue, 03 Mar 2026 07:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.68593
- Title: VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation
- Title(参考訳): VisionCreator: 理解、思考、計画、創造のためのネイティブビジュアル生成エージェントモデル
- Authors: Jinxiang Lai, Zexin Lu, Jiajun He, Rongwei Quan, Wenzhe Zhao, Qinyu Yang, Qi Chen, Qin Lin, Chuyue Li, Tao Gao, Yuhao Shan, Shuai Shao, Song Guo, Qinglin Lu,
- Abstract要約: 我々は、理解、思考、計画、創造(UTPC)機能を統合する視覚世代エージェントモデルであるVisionCreatorを提案する。
i)メタ認知に基づくVisGenData-4kとその構築手法を用いて、明示的なUTPC構造を持つ高品質な生成トラジェクトリを生成するためのVisGenData-4k、(ii)プログレッシブトレーニング(PST)と仮想強化学習(VRL)によって最適化されたVisGenBench、(iii)標準化された評価のための1.2kテストサンプルを含む包括的なベンチマークであるVisGenBenchの4つの主要な貢献を紹介する。
- 参考スコア(独自算出の注目度): 29.664547123081487
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual content creation tasks demand a nuanced understanding of design conventions and creative workflows-capabilities challenging for general models, while workflow-based agents lack specialized knowledge for autonomous creative planning. To overcome these challenges, we propose VisionCreator, a native visual-generation agentic model that unifies Understanding, Thinking, Planning, and Creation (UTPC) capabilities within an end-to-end learnable framework. Our work introduces four key contributions: (i) VisGenData-4k and its construction methodology using metacognition-based VisionAgent to generate high-quality creation trajectories with explicit UTPC structures; (ii) The VisionCreator agentic model, optimized through Progressive Specialization Training (PST) and Virtual Reinforcement Learning (VRL) within a high-fidelity simulated environment, enabling stable and efficient acquisition of UTPC capabilities for complex creation tasks; (iii) VisGenBench, a comprehensive benchmark featuring 1.2k test samples across diverse scenarios for standardized evaluation of multi-step visual creation capabilities; (iv) Remarkably, our VisionCreator-8B/32B models demonstrate superior performance over larger closed-source models across multiple evaluation dimensions. Overall, this work provides a foundation for future research in visual-generation agentic systems.
- Abstract(参考訳): ビジュアルコンテンツ作成タスクは、一般的なモデルに挑戦する設計慣行と創造的なワークフロー能力の微妙な理解を要求する一方で、ワークフローベースのエージェントには、自律的な創造的計画のための専門的な知識が欠けている。
これらの課題を克服するために、我々は、エンドツーエンドの学習可能なフレームワークで理解、思考、計画、創造(UTPC)機能を統合する、ネイティブな視覚世代エージェントモデルであるVisionCreatorを提案する。
私たちの研究は4つの重要な貢献を紹介します。
i) VisGenData-4k及びそのメタ認知に基づくVisionAgentを用いた構築手法
二 高忠実な模擬環境下でのプログレッシブ・スペシャライゼーション・トレーニング(PST)及び仮想強化学習(VRL)により最適化されたVisionCreatorエージェントモデルにより、複雑な作成作業のためのUTPC機能の安定かつ効率的な取得を可能にする。
(iii)VisGenBenchは、多段階視覚生成能力を標準化するための様々なシナリオにわたる1.2kのテストサンプルを含む包括的なベンチマークである。
(4)VisionCreator-8B/32Bモデルは,複数の評価次元にわたる大規模クローズソースモデルよりも優れた性能を示す。
全体として、この研究は視覚生成エージェントシステムにおける将来の研究の基盤となる。
関連論文リスト
- SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model [49.65930977591188]
マルチモーダル埋め込みモデルは、多様なクロスモーダルタスクに力を与える情報的統一表現を提供することを目的としている。
SAIL-Embeddingはオムニモーダルな埋め込み基盤モデルで、これらの問題に適切なトレーニング戦略とアーキテクチャ設計を通して対処する。
具体的には、コンテンツ対応プログレッシブトレーニングは、さまざまな下流タスクへのモデルの適応性を高め、より豊かなクロスモーダル習熟度を習得することを目的としている。
協調型レコメンデーション強化トレーニングは、シークエンス・ツー・テムとID・ツー・テムの埋め込みから知識を抽出することにより、レコメンデーションシナリオのマルチモーダル表現をさらに適応させる。
論文 参考訳(メタデータ) (2025-10-14T16:43:22Z) - Exploring Scalable Unified Modeling for General Low-Level Vision [39.89755374452788]
低レベルの視覚は、画像復元、強化、スタイリゼーション、特徴抽出を含む幅広いタスクを含む。
このような多様なタスクにまたがる統合モデリングの課題に対処するため、我々はVisual Task Promptベースの画像処理フレームワークを提案する。
我々は、統一された低レベル視覚モデルGenLVを開発し、その性能を複数の代表タスクで評価する。
論文 参考訳(メタデータ) (2025-07-20T03:22:52Z) - BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (2025-05-14T17:11:07Z) - Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文 参考訳(メタデータ) (2025-04-17T17:38:18Z) - Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。
ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。
実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-18T17:51:34Z) - Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks [0.0]
視覚駆動型プロンプト最適化(VDPO)は、高忠実度画像合成を導く視覚入力からテキストプロンプトを生成する。
VDPOは既存の手法を一貫して上回り、FID、LPIPS、BLEU/CIDErスコアを大幅に改善した。
人間の評価は、視覚的に魅力的でセマンティックにコヒーレントな出力を生成する上で、VDPOの実用的優位性をさらに検証する。
論文 参考訳(メタデータ) (2025-01-05T13:01:47Z) - Untapped Potential in Self-Optimization of Hopfield Networks: The Creativity of Unsupervised Learning [0.9558392439655014]
我々は、自己最適化(SO)モデルが創造的プロセスに必要な十分な条件を満たすことを論じる。
確率以上の創造的な結果を見つけるためには,学習が必要であることを示す。
論文 参考訳(メタデータ) (2024-12-10T11:58:39Z) - APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。
連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文 参考訳(メタデータ) (2024-11-26T09:31:28Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。