論文の概要: Beyond Realism: Learning the Art of Expressive Composition with StickerNet
- arxiv url: http://arxiv.org/abs/2511.20957v1
- Date: Wed, 26 Nov 2025 01:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.914557
- Title: Beyond Realism: Learning the Art of Expressive Composition with StickerNet
- Title(参考訳): Beyond Realism: StickerNetで表現的構成の芸術を学ぶ
- Authors: Haoming Lu, David Kocharian, Humphrey Shi,
- Abstract要約: コンポジションタイプを最初に決定し、不透明度、マスク、位置、スケールなどの配置パラメータをそれに応じて予測する2段階フレームワークである StickerNet を提示する。
実際の画像上のオブジェクト配置をシミュレートしてデータセットを構築する以前の作業とは異なり、匿名のオンラインビジュアル生成および編集プラットフォーム上で収集された1.8万の編集アクションから直接データセットを構築します。
ユーザ調査と定量的評価は、StickerNetが共通のベースラインを上回り、人間の配置行動と密接に一致していることを示している。
- 参考スコア(独自算出の注目度): 38.113801584146024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a widely used operation in image editing workflows, image composition has traditionally been studied with a focus on achieving visual realism and semantic plausibility. However, in practical editing scenarios of the modern content creation landscape, many compositions are not intended to preserve realism. Instead, users of online platforms motivated by gaining community recognition often aim to create content that is more artistic, playful, or socially engaging. Taking inspiration from this observation, we define the expressive composition task, a new formulation of image composition that embraces stylistic diversity and looser placement logic, reflecting how users edit images on real-world creative platforms. To address this underexplored problem, we present StickerNet, a two-stage framework that first determines the composition type, then predicts placement parameters such as opacity, mask, location, and scale accordingly. Unlike prior work that constructs datasets by simulating object placements on real images, we directly build our dataset from 1.8 million editing actions collected on an anonymous online visual creation and editing platform, each reflecting user-community validated placement decisions. This grounding in authentic editing behavior ensures strong alignment between task definition and training supervision. User studies and quantitative evaluations show that StickerNet outperforms common baselines and closely matches human placement behavior, demonstrating the effectiveness of learning from real-world editing patterns despite the inherent ambiguity of the task. This work introduces a new direction in visual understanding that emphasizes expressiveness and user intent over realism.
- Abstract(参考訳): 画像編集ワークフローにおいて広く使われている操作として、画像合成は視覚的リアリズムと意味論的妥当性の実現に焦点をあてて伝統的に研究されてきた。
しかし、現代コンテンツ創造のランドスケープの実践的な編集シナリオでは、多くの作曲はリアリズムを保存することを意図していない。
むしろ、コミュニティの認知を得て動機付けられたオンラインプラットフォームのユーザーは、より芸術的、遊び的、社会的にエンゲージメントのあるコンテンツを作ることを目標にしていることが多い。
この観察から着想を得て,現実の創造的プラットフォーム上でユーザがどのように画像を編集するかを反映した,スタイリスティックな多様性とよりゆるやかな配置論理を取り入れた,画像合成の新しい定式化である表現的合成タスクを定義する。
この未探索問題に対処するため,まずコンポジションタイプを判定し,不透明度,マスク,位置,スケールなどの配置パラメータを予測する2段階フレームワークであるStickerNetを提案する。
実際の画像上のオブジェクト配置をシミュレートしてデータセットを構築する以前の作業とは異なり、匿名のオンラインビジュアル生成および編集プラットフォーム上で収集された1.8万の編集アクションから直接データセットを構築し、それぞれがユーザコミュニティが検証した配置決定を反映する。
この真正な編集行動の基盤は、タスク定義とトレーニングの監督の強い整合性を保証する。
ユーザスタディと定量的評価により、StickerNetは共通のベースラインを上回り、人間の配置行動と密に一致していることが示され、タスク固有の曖昧さにもかかわらず、現実世界の編集パターンから学習することの有効性が示された。
この研究は、現実主義よりも表現力とユーザ意図を強調する視覚的理解の新しい方向性を導入する。
関連論文リスト
- Neural Scene Designer: Self-Styled Semantic Image Manipulation [67.43125248646653]
我々は,ユーザが指定したシーン領域のリアルな写真操作を可能にする新しいフレームワークであるNeural Scene Designer (NSD)を紹介した。
NSDは、ユーザ意図とのセマンティックアライメントと、周辺環境とのスタイリスティックな整合性の両方を保証する。
細かなスタイル表現を捉えるために,プログレッシブ・セルフスタイル表現学習(PSRL)モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:59:03Z) - SPIE: Semantic and Structural Post-Training of Image Editing Diffusion Models with AI feedback [28.807572302899004]
SPIEは、命令ベースの画像編集拡散モデルの意味的および構造的後学習のための新しいアプローチである。
広範な人間のアノテーションに頼ることなく、拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。
実験結果から,SPIEは複雑なシーンで,わずか10ステップで複雑な編集を行うことができることがわかった。
論文 参考訳(メタデータ) (2025-04-17T10:46:39Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。