論文の概要: PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback
- arxiv url: http://arxiv.org/abs/2602.12127v1
- Date: Thu, 12 Feb 2026 16:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.920906
- Title: PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback
- Title(参考訳): PosterOmni: タスク蒸留と統一リワードフィードバックによる汎用的なアートポスター作成
- Authors: Sixiang Chen, Jianyu Lai, Jialin Gao, Hengyu Shi, Zhongying Liu, Tian Ye, Junfeng Luo, Xiaoming Wei, Lei Zhu,
- Abstract要約: ポスター・オムニ(Poster Omni)は、総合的な芸術的ポスター制作の枠組みである。
ローカル編集とグローバル作成という2つの体制を単一のシステムに統合する。
基準順守、グローバルな構成品質、審美調和を著しく向上させる。
- 参考スコア(独自算出の注目度): 30.88155039139322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-poster generation is a high-demand task requiring not only local adjustments but also high-level design understanding. Models must generate text, layout, style, and visual elements while preserving semantic fidelity and aesthetic coherence. The process spans two regimes: local editing, where ID-driven generation, rescaling, filling, and extending must preserve concrete visual entities; and global creation, where layout- and style-driven tasks rely on understanding abstract design concepts. These intertwined demands make image-to-poster a multi-dimensional process coupling entity-preserving editing with concept-driven creation under image-prompt control. To address these challenges, we propose PosterOmni, a generalized artistic poster creation framework that unlocks the potential of a base edit model for multi-task image-to-poster generation. PosterOmni integrates the two regimes, namely local editing and global creation, within a single system through an efficient data-distillation-reward pipeline: (i) constructing multi-scenario image-to-poster datasets covering six task types across entity-based and concept-based creation; (ii) distilling knowledge between local and global experts for supervised fine-tuning; and (iii) applying unified PosterOmni Reward Feedback to jointly align visual entity-preserving and aesthetic preference across all tasks. Additionally, we establish PosterOmni-Bench, a unified benchmark for evaluating both local editing and global creation. Extensive experiments show that PosterOmni significantly enhances reference adherence, global composition quality, and aesthetic harmony, outperforming all open-source baselines and even surpassing several proprietary systems.
- Abstract(参考訳): イメージ・ツー・ポスト生成は、局所的な調整だけでなく、高レベルの設計理解を必要とする要求の高いタスクである。
モデルは意味的忠実さと美的コヒーレンスを維持しながら、テキスト、レイアウト、スタイル、視覚的要素を生成する必要がある。
このプロセスは、ID駆動生成、再スケーリング、フィリング、拡張を行うローカル編集と、レイアウトとスタイル駆動のタスクが抽象的なデザイン概念を理解することに依存するグローバル創造という2つの体制にまたがっている。
これらの相互接続要求は、画像プロンプト制御の下で概念駆動生成による多次元プロセス結合エンティティ保存編集を実現する。
これらの課題に対処するために,多タスク画像・ポスター生成のためのベース編集モデルの可能性を解き放つ汎用的な芸術的ポスター作成フレームワークであるPosterOmniを提案する。
PosterOmniは、ローカル編集とグローバル生成という2つのレシシエーションを、効率的なデータ蒸留逆パイプラインを通じて単一のシステムに統合する。
(i)エンティティベース及びコンセプトベース作成にまたがる6つのタスクタイプをカバーするマルチシナリオイメージ・ツー・ポインターデータセットの構築。
二 監督微調整のための地域専門家とグローバル専門家の知識の蒸留
三 統合された PosterOmni Reward Feedback を適用し、視覚的実体保存と美的嗜好を全てのタスクで協調的に調整する。
さらに、ローカル編集とグローバル作成の両方を評価するための統一ベンチマークであるPosterOmni-Benchを確立する。
大規模な実験により、PosterOmniは参照順守、グローバルな構成品質、審美的調和を著しく向上させ、すべてのオープンソースベースラインを上回り、いくつかのプロプライエタリなシステムを超えている。
関連論文リスト
- MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues [106.02577891104079]
本稿では,生成画像編集のための合成パラダイムであるMagicQuill V2を提案する。
本手法は,創造性を制御可能な視覚的手がかりのスタックに分解する。
論文 参考訳(メタデータ) (2025-12-02T18:59:58Z) - PosterForest: Hierarchical Multi-Agent Collaboration for Scientific Poster Generation [28.02969134846803]
文書構造と視覚的・テキスト的関係を共同で符号化する階層型中間表現であるtextitPoster Tree を導入する。
本フレームワークでは,コンテンツ要約とレイアウト計画を専門とするエージェントが反復的に協調し,相互にフィードバックを提供するマルチエージェント協調戦略を採用している。
論文 参考訳(メタデータ) (2025-08-29T15:36:06Z) - PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs [16.62052847270255]
PosterGenはプロのポスターデザイナーのワークフローを反映したマルチエージェントフレームワークである。
意味的に根拠があり、視覚的に魅力的であるポスターを制作する。
実験の結果,PosterGenはコンテントの忠実度に一貫して一致し,ビジュアルデザインの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-08-24T02:25:45Z) - PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework [26.60241017305203]
PosterCraftは、以前のモジュールパイプラインと厳格で定義されたレイアウトを捨てる統一されたフレームワークである。
慎重にデザインされ、カスケードされたワークフローを使用して、審美的なポスターの生成を最適化する。
PosterCraftは、レンダリング精度、レイアウトコヒーレンス、全体的な視覚的魅力において、オープンソースのベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-12T14:28:12Z) - CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design [69.83433430133302]
CreatiDesignは、モデルアーキテクチャとデータセット構築の両方をカバーする、自動グラフィック設計のための体系的なソリューションである。
まず、異種設計要素の柔軟かつ正確な統合を可能にする統合されたマルチ条件駆動アーキテクチャを設計する。
さらに,各条件が指定された画像領域を正確に制御することを保証するため,マルチモーダルアテンションマスク機構を提案する。
論文 参考訳(メタデータ) (2025-05-25T12:14:23Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - COLE: A Hierarchical Generation Framework for Multi-Layered and Editable Graphic Design [39.809852329070466]
本稿では,これらの課題に対処するために設計された階層型生成フレームワークであるCOLEシステムを紹介する。
このCOLEシステムは、曖昧な意図のプロンプトを高品質な多層グラフィック設計に変換すると同時に、ユーザ入力に基づく柔軟な編集をサポートする。
論文 参考訳(メタデータ) (2023-11-28T17:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。