論文の概要: Semantic-Structural Alignment for Generative Pictorial Charts
- arxiv url: http://arxiv.org/abs/2606.06498v1
- Date: Tue, 05 May 2026 05:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.64975
- Title: Semantic-Structural Alignment for Generative Pictorial Charts
- Title(参考訳): 図形生成のための意味的構造的アライメント
- Authors: Zhida Sun, Yulin Zhang, Zheng Gu, Min Lu, Bongshin Lee, Daniel Cohen-Or, Hui Huang,
- Abstract要約: 画像チャートの自動合成のための生成フレームワークを提案する。
2つの並列外部制御信号によって誘導される二重条件生成タスクとしてこの問題をモデル化する。
本手法は,芸術的に魅力的で構造的に整合性のある図表を生成する。
- 参考スコア(独自算出の注目度): 59.45629259524998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional statistical graphics are precise but often lack the visual appeal, memorability, and engagement of pictorial charts. We present a generative framework for the automated synthesis of pictorial charts that bridges the gap between semantic expression and structural faithfulness. Rather than treating charts merely as images to be stylized, we frame the problem as a dual-conditioned generation task guided by two parallel external control signals: a text prompt capturing the semantic context of the editing intent, and a context image providing the abstract statistical chart's global structure. To reinforce these controls within a Multi-Modal Diffusion Transformer, we introduce two complementary feature-level mechanisms: structural alignment to anchor spatial layouts to the input chart, and semantic alignment to transfer expressive textures from reference images. Generalizing across major visual channels (i.e., length, area, angle, and position) and diverse semantic domains, our method produces pictorial charts that are both artistically compelling and structurally consistent. Extensive quantitative evaluations and perceptual user studies demonstrate that our framework outperforms traditional controllable generation and image editing baselines, providing a foundation for high-fidelity, data-driven generative modeling in expressive visual storytelling. Project page: https://ssalign.github.io/.
- Abstract(参考訳): 伝統的な統計グラフィックは正確だが、しばしば視覚的魅力、記憶可能性、絵図のエンゲージメントを欠いている。
本稿では,意味表現と構造的忠実性のギャップを埋める画像チャートの自動合成のための生成フレームワークを提案する。
グラフを単にスタイリングするイメージとして扱うのではなく、2つの並列な外部制御信号によって誘導される二重条件生成タスクとして、編集意図の意味的コンテキストを抽出するテキストプロンプトと、抽象統計チャートのグローバルな構造を提供するコンテキストイメージとして扱う。
マルチモード拡散変換器におけるこれらの制御を強化するために,入力チャートに空間配置を固定する構造的アライメントと,参照画像から表現的テクスチャを伝達する意味的アライメントという,相補的な特徴レベル機構を導入する。
主要な視覚チャネル(長さ、面積、角度、位置など)と多様な意味領域をまたいで一般化し、芸術的に魅力的かつ構造的に整合した図表を作成する。
広汎な定量的評価と知覚的ユーザスタディにより、我々のフレームワークは従来の制御可能な生成と画像編集のベースラインよりも優れており、表現力のあるビジュアルストーリーテリングにおける高忠実でデータ駆動型生成モデルの基礎を提供する。
プロジェクトページ: https://ssalign.github.io/.com
関連論文リスト
- Dependency-Aware Discrete Diffusion for Scene Graph Generation [8.87774679281067]
本稿では,シーングラフ生成のための依存性を考慮した階層的制約付き離散拡散モデルを提案する。
我々のアプローチは、フォワードプロセスとリバースプロセスの間で構造とセマンティクスを分離し、モデルが条件付き依存関係をキャプチャすることを可能にする。
下流画像生成に投入すると,本手法はテキスト・ツー・イメージモデルよりもコンポジションアライメントが向上する。
論文 参考訳(メタデータ) (2026-05-09T17:16:20Z) - ChArtist: Generating Pictorial Charts with Unified Spatial and Subject Control [9.055386884800525]
図表は視覚的ストーリーテリングに有効な媒体であり、視覚的要素とデータチャートをシームレスに統合する。
自然画像から高密度構造的手がかりを抽出する現在の方法は、図表生成のための条件付け信号として不適である。
画像チャートを自動生成するドメイン固有拡散モデルであるChArtistを提案する。
論文 参考訳(メタデータ) (2026-03-15T03:55:44Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance [46.77060502803466]
本稿では,シーングラフの構造化表現を利用したScene Graph Adapter(SG-Adapter)を導入する。
SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-24T08:00:46Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。