論文の概要: Factuality Matters: When Image Generation and Editing Meet Structured Visuals
- arxiv url: http://arxiv.org/abs/2510.05091v1
- Date: Mon, 06 Oct 2025 17:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.044389
- Title: Factuality Matters: When Image Generation and Editing Meet Structured Visuals
- Title(参考訳): 画像生成と編集が構造化された視覚と出会うとき
- Authors: Le Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li,
- Abstract要約: 我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
- 参考スコア(独自算出の注目度): 46.627460447235855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While modern visual generation models excel at creating aesthetically pleasing natural images, they struggle with producing or editing structured visuals like charts, diagrams, and mathematical figures, which demand composition planning, text rendering, and multimodal reasoning for factual fidelity. To address this, we present the first comprehensive, systematic investigation of this domain, encompassing data construction, model training, and an evaluation benchmark. First, we construct a large-scale dataset of 1.3 million high-quality structured image pairs derived from executable drawing programs and augmented with chain-of-thought reasoning annotations. Building on it, we train a unified model that integrates a VLM with FLUX.1 Kontext via a lightweight connector for enhanced multimodal understanding. A three-stage training curriculum enables progressive feature alignment, knowledge infusion, and reasoning-augmented generation, further boosted by an external reasoner at inference time. Finally, we introduce StructBench, a novel benchmark for generation and editing with over 1,700 challenging instances, and an accompanying evaluation metric, StructScore, which employs a multi-round Q\&A protocol to assess fine-grained factual accuracy. Evaluations of 15 models reveal that even leading closed-source systems remain far from satisfactory. Our model attains strong editing performance, and inference-time reasoning yields consistent gains across diverse architectures. By releasing the dataset, model, and benchmark, we aim to advance unified multimodal foundations for structured visuals.
- Abstract(参考訳): 現代の視覚生成モデルは、美的な自然なイメージを作るのに優れていますが、チャート、図、数学的図形などの構造化されたビジュアルを作成・編集するのに苦労しています。
そこで本研究では,データ構築,モデルトレーニング,評価ベンチマークを含む,この領域を包括的かつ体系的に調査した最初の事例を紹介する。
まず、実行可能な描画プログラムから得られた13万の高品質な構造化画像対の大規模データセットを構築し、連鎖推論アノテーションで拡張する。
その上で、VLMとFLUX.1を統合する統一モデルをトレーニングします。
マルチモーダル理解のための軽量コネクタによるKontext
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論時間における外部推論によってさらに強化される推論強化生成を可能にする。
最後に,1700以上の課題のあるインスタンスで生成および編集を行う新しいベンチマークであるStructBenchと,それに伴う評価指標であるStructScoreを紹介した。
15モデルの評価は、主要なクローズドソースシステムでさえ、満足できる状態にはほど遠いことを示している。
我々のモデルは、強力な編集性能を達成し、推論時推論により、様々なアーキテクチャで一貫した利得が得られる。
データセット,モデル,ベンチマークを公開することにより,構造化ビジュアルのための統合マルチモーダル基盤の整備を目指す。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - A Framework for Generating Artificial Datasets to Validate Absolute and Relative Position Concepts [2.0391237204597368]
このフレームワークは、オブジェクト認識、絶対位置と相対位置、属性識別といった基本的な概念に焦点を当てている。
提案するフレームワークは、多種多様な包括的なデータセットを生成するための貴重な手段を提供する。
論文 参考訳(メタデータ) (2025-09-17T18:37:24Z) - Video Understanding by Design: How Datasets Shape Architectures and Insights [47.846604113207206]
ビデオ理解は、ますます複雑なデータセットと強力なアーキテクチャによって、急速に進歩している。
この調査は、モデルがエンコードすべき帰納的バイアスを課す動きの複雑さ、時間的スパン、階層的構成、マルチモーダル豊かさを示す、データセット駆動の視点を採用した初めてのものだ。
論文 参考訳(メタデータ) (2025-09-11T05:06:30Z) - CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (2025-05-14T17:11:07Z) - Multimodal Benchmarking and Recommendation of Text-to-Image Generation Models [0.0]
本研究は,テキスト・ツー・イメージ・ジェネレーション・モデルのためのオープンソースの統一ベンチマーク・評価フレームワークを提案する。
本フレームワークは,モデル選択のためのタスク固有のレコメンデーションと,評価指標に基づく設計の促進を可能にする。
論文 参考訳(メタデータ) (2025-05-06T18:53:34Z) - ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing [23.512687688393346]
ICE-Benchは、画像生成モデルを厳格に評価するために設計された包括的なベンチマークである。
評価フレームワークは、6次元にわたる画像生成能力を評価する。
既存の世代モデルを徹底的に分析し、ベンチマークの難易度と現在のモデル能力と実世界の世代要件のギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-18T17:53:29Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。