論文の概要: Controlling Your Image via Simplified Vector Graphics
- arxiv url: http://arxiv.org/abs/2602.14443v1
- Date: Mon, 16 Feb 2026 03:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.131568
- Title: Controlling Your Image via Simplified Vector Graphics
- Title(参考訳): シンプルなベクトルグラフによる画像の制御
- Authors: Lanqing Guo, Xi Liu, Yufei Wang, Zhihao Li, Siyu Huang,
- Abstract要約: 単純化ベクターグラフィックス(VG)による層幅制御可能生成について紹介する。
提案手法は,まず画像の階層的VG表現に効率よく解析し,セマンティックアライメントと構造的コヒーレントさを両立させる。
この表現に基づいて、我々はVGによってガイドされる新しい画像合成フレームワークを設計し、ユーザーが自由に要素を編集し、これらの編集をシームレスに出力に変換することを可能にする。
- 参考スコア(独自算出の注目度): 31.087153372906624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in image generation have achieved remarkable visual quality, while a fundamental challenge remains: Can image generation be controlled at the element level, enabling intuitive modifications such as adjusting shapes, altering colors, or adding and removing objects? In this work, we address this challenge by introducing layer-wise controllable generation through simplified vector graphics (VGs). Our approach first efficiently parses images into hierarchical VG representations that are semantic-aligned and structurally coherent. Building on this representation, we design a novel image synthesis framework guided by VGs, allowing users to freely modify elements and seamlessly translate these edits into photorealistic outputs. By leveraging the structural and semantic features of VGs in conjunction with noise prediction, our method provides precise control over geometry, color, and object semantics. Extensive experiments demonstrate the effectiveness of our approach in diverse applications, including image editing, object-level manipulation, and fine-grained content creation, establishing a new paradigm for controllable image generation. Project page: https://guolanqing.github.io/Vec2Pix/
- Abstract(参考訳): 画像生成は要素レベルで制御可能で、形状の調整や色の変更、オブジェクトの追加や削除といった直感的な修正が可能か?
本稿では, 簡易ベクトルグラフィックス (VG) による層ワイド制御可能生成を導入することで, この課題に対処する。
提案手法は,まず画像の階層的VG表現に効率よく解析し,セマンティックアライメントと構造的コヒーレントさを両立させる。
この表現に基づいて、我々はVGによってガイドされる新しい画像合成フレームワークを設計し、ユーザーが自由に要素を編集し、これらの編集をフォトリアリスティックな出力にシームレスに変換できるようにする。
本手法は,VGの構造的特徴と意味的特徴をノイズ予測と組み合わせて利用することにより,形状,色,オブジェクトの意味を正確に制御する。
画像編集,オブジェクトレベルの操作,微粒化コンテンツ生成など,多様なアプリケーションにおけるアプローチの有効性を実証し,制御可能な画像生成のための新たなパラダイムを確立した。
プロジェクトページ: https://guolanqing.github.io/Vec2Pix/
関連論文リスト
- I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People [4.41462357579624]
視覚障害のある人は、しばしば視覚要素に大きく依存するコンテンツを作成するのに苦労する。
イメージを並べて構築する既存の描画ツールは、数学のような単純なタスクには適しているが、表現力のあるアートワークには向いていない。
我々の研究は、ジェネレーティブAIと建設的なアプローチを統合し、ユーザーが制御と編集能力を増強する。
論文 参考訳(メタデータ) (2024-08-05T01:47:36Z) - The Stable Artist: Steering Semantics in Diffusion Latent Space [17.119616029527744]
本稿では,画像生成プロセスのきめ細かい制御を可能にする画像編集手法であるStable Artistを提案する。
主要なコンポーネントはセマンティックガイダンス(SEGA)であり、セマンティックな方向の変数数に沿って拡散過程を制御している。
SEGAは、モデルによって学習された概念の表現に関する洞察を得るために、潜在空間の探索を可能にする。
論文 参考訳(メタデータ) (2022-12-12T16:21:24Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Semantic Image Manipulation Using Scene Graphs [105.03614132953285]
本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-07T20:02:49Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。