論文の概要: MiLDEdit: Reasoning-Based Multi-Layer Design Document Editing
- arxiv url: http://arxiv.org/abs/2601.04589v1
- Date: Thu, 08 Jan 2026 04:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.039905
- Title: MiLDEdit: Reasoning-Based Multi-Layer Design Document Editing
- Title(参考訳): MiLDEdit: 推論ベースのマルチレイヤ設計ドキュメント編集
- Authors: Zihao Lin, Wanrong Zhu, Jiuxiang Gu, Jihyung Kil, Christopher Tensmeyer, Lin Zhang, Shilong Liu, Ruiyi Zhang, Lifu Huang, Vlad I. Morariu, Tong Sun,
- Abstract要約: マルチレイヤ文書編集エージェント(MiLDEAgent)について紹介する。
MiLDEAgentは、レイヤワイドな理解のためのRLトレーニングされたマルチモーダル推論と、ターゲットとする修正のためのイメージエディタを組み合わせた推論ベースのフレームワークである。
MiLDEAgentは強力なレイヤ認識推論と正確な編集を実現し、すべてのオープンソースベースラインを著しく上回り、クローズドソースモデルに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 67.28337411397062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world design documents (e.g., posters) are inherently multi-layered, combining decoration, text, and images. Editing them from natural-language instructions requires fine-grained, layer-aware reasoning to identify relevant layers and coordinate modifications. Prior work largely overlooks multi-layer design document editing, focusing instead on single-layer image editing or multi-layer generation, which assume a flat canvas and lack the reasoning needed to determine what and where to modify. To address this gap, we introduce the Multi-Layer Document Editing Agent (MiLDEAgent), a reasoning-based framework that combines an RL-trained multimodal reasoner for layer-wise understanding with an image editor for targeted modifications. To systematically benchmark this setting, we introduce the MiLDEBench, a human-in-the-loop corpus of over 20K design documents paired with diverse editing instructions. The benchmark is complemented by a task-specific evaluation protocol, MiLDEEval, which spans four dimensions including instruction following, layout consistency, aesthetics, and text rendering. Extensive experiments on 14 open-source and 2 closed-source models reveal that existing approaches fail to generalize: open-source models often cannot complete multi-layer document editing tasks, while closed-source models suffer from format violations. In contrast, MiLDEAgent achieves strong layer-aware reasoning and precise editing, significantly outperforming all open-source baselines and attaining performance comparable to closed-source models, thereby establishing the first strong baseline for multi-layer document editing.
- Abstract(参考訳): 現実世界のデザイン文書(例:ポスター)は本質的に多層化されており、装飾、テキスト、画像を組み合わせている。
自然言語命令からそれらを編集するには、関連するレイヤを特定し、修正を調整するために、きめ細かいレイヤー認識の推論が必要である。
それまでの作業は多層設計文書の編集を概ね見落としており、代わりに単層画像の編集や多層生成に重点を置いていた。
このギャップに対処するために、RL学習型マルチモーダル推論器とターゲット修正のためのイメージエディタを組み合わせた推論ベースのフレームワークであるMulti-Layer Document Editing Agent (MiLDEAgent)を導入する。
この設定を体系的にベンチマークするために,多種多様な編集命令が組み合わさった20K以上の設計文書からなるHuman-in-the-loopコーパスであるMiLDEBenchを紹介した。
ベンチマークはタスク固有の評価プロトコルであるMiLDEEvalで補完されており、命令従順、レイアウト整合性、美学、テキストレンダリングを含む4次元にまたがる。
14のオープンソースモデルと2つのクローズドソースモデルに対する大規模な実験は、既存のアプローチが一般化に失敗していることを示している。
対照的に、MiLDEAgentは強力なレイヤ認識推論と正確な編集を実現し、すべてのオープンソースベースラインを著しく上回り、クローズドソースモデルに匹敵するパフォーマンスを実現し、マルチレイヤ文書編集のための最初の強力なベースラインを確立する。
関連論文リスト
- MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks [46.87912659985628]
MultiEditは、107K以上の高品質の画像編集サンプルを備えた包括的なデータセットである。
18の非スタイルの編集タイプと38のスタイルの転送操作の多様なコレクションを通じて、6つの困難な編集タスクを含んでいる。
我々は、2つのマルチモーダル大言語モデル(MLLM)を用いて視覚適応的な編集命令を生成する新しいデータセット構築パイプラインを用いる。
論文 参考訳(メタデータ) (2025-09-18T05:33:38Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文 参考訳(メタデータ) (2025-05-26T18:00:10Z) - ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T17:53:33Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。