論文の概要: AesCrop: Aesthetic-driven Cropping Guided by Composition
- arxiv url: http://arxiv.org/abs/2510.22528v1
- Date: Sun, 26 Oct 2025 04:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.233224
- Title: AesCrop: Aesthetic-driven Cropping Guided by Composition
- Title(参考訳): AesCrop: 合成ガイドによる美的なクロップ
- Authors: Yen-Hong Wong, Lai-Kuan Wong,
- Abstract要約: AesCropは、VMambaイメージエンコーダを統合し、新しいMambaコンポジションアテンションバイアス(MCAB)を付加した合成対応ハイブリッド画像カッピングモデルである。
MCABは、コンポジションキューをアテンション機構にエンコードし、AesCropに最も構成的に健全な領域にフォーカスするよう指示する。
大規模な実験は、AesCropが現在の最先端の手法より優れており、優れた量的指標を提供し、質的により喜ばしい作物を提供することを示した。
- 参考スコア(独自算出の注目度): 4.402109574578595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aesthetic-driven image cropping is crucial for applications like view recommendation and thumbnail generation, where visual appeal significantly impacts user engagement. A key factor in visual appeal is composition--the deliberate arrangement of elements within an image. Some methods have successfully incorporated compositional knowledge through evaluation-based and regression-based paradigms. However, evaluation-based methods lack globality while regression-based methods lack diversity. Recently, hybrid approaches that integrate both paradigms have emerged, bridging the gap between these two to achieve better diversity and globality. Notably, existing hybrid methods do not incorporate photographic composition guidance, a key attribute that defines photographic aesthetics. In this work, we introduce AesCrop, a composition-aware hybrid image-cropping model that integrates a VMamba image encoder, augmented with a novel Mamba Composition Attention Bias (MCAB) and a transformer decoder to perform end-to-end rank-based image cropping, generating multiple crops along with the corresponding quality scores. By explicitly encoding compositional cues into the attention mechanism, MCAB directs AesCrop to focus on the most compositionally salient regions. Extensive experiments demonstrate that AesCrop outperforms current state-of-the-art methods, delivering superior quantitative metrics and qualitatively more pleasing crops.
- Abstract(参考訳): ビューレコメンデーションやサムネイル生成といったアプリケーションでは、視覚的魅力がユーザのエンゲージメントに大きく影響する。
視覚的魅力の重要な要素は、画像内の要素を意図的に配置することである。
いくつかの手法は、評価ベースおよび回帰ベースパラダイムを通じて構成知識をうまく組み込んだ。
しかし、評価に基づく手法はグローバル性を欠いており、回帰に基づく手法は多様性を欠いている。
近年,両パラダイムを統合したハイブリッドアプローチが出現し,両者のギャップを埋めて,多様性とグローバル性の向上を実現している。
特に、既存のハイブリッド手法では、写真美学を定義する重要な属性である写真合成指導は組み込まれていない。
本稿では,VMambaイメージエンコーダを統合した合成対応ハイブリッド画像クロッピングモデルであるAesCropを紹介し,新しいMambaコンポジションアテンションバイアス(MCAB)とトランスフォーマーデコーダを併用して,エンドツーエンドの階数に基づく画像トリミングを行い,対応する品質スコアとともに複数の作物を生成する。
MCABは、コンポジションキューをアテンション機構に明示的にエンコードすることで、AesCropに最も構成的に健全な領域にフォーカスするよう指示する。
大規模な実験は、AesCropが現在の最先端の手法より優れており、優れた量的指標を提供し、質的により喜ばしい作物を提供することを示した。
関連論文リスト
- VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis [23.50866105623598]
本稿では,ノイズレベルと潜時レベルの両方で2つの入力画像を統合することで,単一のコヒーレントオブジェクトを合成する拡散ベースフレームワークを提案する。
本手法は, 視覚的品質, 意味的整合性, 人格的創造性において, 高いベースラインを達成している。
論文 参考訳(メタデータ) (2025-09-28T03:17:58Z) - FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus [10.615833390806486]
多目的パーソナライズされた画像生成は、テスト時間最適化を必要とせず、複数の特定対象を含むカスタマイズされた画像を合成することを目的としている。
動的意味対応と教師あり画像の複雑さに基づいて焦点領域を適応的に識別するフレームワークであるFocusDPOを提案する。
論文 参考訳(メタデータ) (2025-09-01T07:06:36Z) - CDG-MAE: Learning Correspondences from Diffusion Generated Views [19.24402848656637]
CDG-MAEは、静的画像から生成される多様な合成ビューを利用する、新しいMAEベースの自己教師方式である。
これらの生成されたビューは、ポーズとパースペクティブに大きな変化を示し、リッチなトレーニング信号を提供する。
論文 参考訳(メタデータ) (2025-06-22T20:40:11Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Adversarial Image Composition with Auxiliary Illumination [53.89445873577062]
本稿では,現実的な画像合成を実現するためのAIC-Netを提案する。
影の発生と前景の移動を両立させる新しい分岐生成機構を提案する。
歩行者と自動車のコンポジションタスクに関する実験により,提案したAIC-Netが優れたコンポジション性能を実現することを示す。
論文 参考訳(メタデータ) (2020-09-17T12:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。