Fugu-MT 論文翻訳(概要): VectorEdits: A Dataset and Benchmark for Instruction-Based Editing of Vector Graphics

論文の概要: VectorEdits: A Dataset and Benchmark for Instruction-Based Editing of Vector Graphics

arxiv url: http://arxiv.org/abs/2506.15903v1
Date: Wed, 18 Jun 2025 22:17:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:04.872998
Title: VectorEdits: A Dataset and Benchmark for Instruction-Based Editing of Vector Graphics
Title（参考訳）: VectorEdits: ベクトルグラフのインストラクションベースの編集のためのデータセットとベンチマーク
Authors: Josef Kuchař, Marek Kadlčík, Michal Spiegel, Michal Štefánik,
Abstract要約: このデータセットは、270,000対のSVGイメージと自然言語の編集命令の組み合わせで構成されている。ここでは,CLIPの類似性による画像ペアリングや,視覚言語モデルを用いた命令生成など,データ収集プロセスについて述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a large-scale dataset for instruction-guided vector image editing, consisting of over 270,000 pairs of SVG images paired with natural language edit instructions. Our dataset enables training and evaluation of models that modify vector graphics based on textual commands. We describe the data collection process, including image pairing via CLIP similarity and instruction generation with vision-language models. Initial experiments with state-of-the-art large language models reveal that current methods struggle to produce accurate and valid edits, underscoring the challenge of this task. To foster research in natural language-driven vector graphic generation and editing, we make our resources created within this work publicly available.
Abstract（参考訳）: 本稿では,270,000対のSVG画像と自然言語編集命令を組み合わせ,命令誘導ベクトル画像編集のための大規模データセットを提案する。我々のデータセットは、テキストコマンドに基づいてベクトルグラフィックスを変更するモデルのトレーニングと評価を可能にする。ここでは,CLIPの類似性による画像ペアリングや,視覚言語モデルを用いた命令生成など,データ収集プロセスについて述べる。最先端の大規模言語モデルによる最初の実験では、現在の手法が正確で有効な編集に苦労していることが示され、このタスクの課題が浮き彫りになっている。自然言語によるベクトルグラフィック生成と編集の研究を促進するため,本研究で作成したリソースを一般公開する。

関連論文リスト

Instruction-based Image Editing with Planning, Reasoning, and Generation [52.0364486403062]
以前の作業では、大きな言語モデル、オブジェクトセグメンテーションモデル、このタスクのためのモデル編集の連鎖を利用していた。我々は、命令ベースの画像編集モデルにインテリジェントな能力を提供する新しいマルチモーダリティモデルにより、理解と生成をブリッジすることを目指している。本手法は,複雑な実世界の画像に対して,競合する編集能力を有する。
論文参考訳（メタデータ） (2026-02-26T04:56:02Z)
DreamOmni3: Scribble-based Editing and Generation [72.52583595391944]
私たちはDream Omni3を紹介し、データ生成とフレームワーク設計という2つの課題に取り組みます。スクリブル・インストラクション・ベースの編集、スクリブル・マルチモーダル・インストラクション・ベース・ジェネレーション、およびドゥードル生成の4つのタスクを定義する。フレームワークでは,バイナリマスクの代わりに,オリジナル画像とスクリブル画像の両方をモデルに入力するジョイント入力方式を提案する。
論文参考訳（メタデータ） (2025-12-27T09:07:12Z)
Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文参考訳（メタデータ） (2025-05-25T22:40:59Z)
Image Inpainting Models are Effective Tools for Instruction-guided Image Editing [42.63350374074953]
CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing Trackの優勝作品である。 4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
論文参考訳（メタデータ） (2024-07-18T03:55:33Z)
SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。自動パイプラインによって生成された高品質な編集データ。インターネットから収集された実世界のシナリオデータ。人間によって注釈付けされた高精度マルチターン編集データ。
論文参考訳（メタデータ） (2024-05-07T04:55:47Z)
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文参考訳（メタデータ） (2023-09-30T14:26:43Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
InstructPix2Pix: Learning to Follow Image Editing Instructions [103.77092910685764]
人間の指示から画像を編集する手法を提案する。入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文参考訳（メタデータ） (2022-11-17T18:58:43Z)
Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-24T16:30:03Z)
Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文参考訳（メタデータ） (2020-08-15T04:52:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。