論文の概要: An Experience-based Direct Generation approach to Automatic Image
Cropping
- arxiv url: http://arxiv.org/abs/2212.14561v1
- Date: Fri, 30 Dec 2022 06:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:57:37.908650
- Title: An Experience-based Direct Generation approach to Automatic Image
Cropping
- Title(参考訳): 画像の自動クロッピングに対する経験に基づく直接生成手法
- Authors: Casper Christensen and Aneesh Vartakavi
- Abstract要約: 画像美学を明示的にモデル化することなく,画像を直接収穫する新しい手法を提案する。
我々のモデルは、経験豊富な編集者が収集した画像の大規模なデータセットに基づいて訓練されている。
我々の戦略は2つの関連するタスクにおいて既存の手法と競合するか、あるいは性能が良いことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Image Cropping is a challenging task with many practical downstream
applications. The task is often divided into sub-problems - generating cropping
candidates, finding the visually important regions, and determining aesthetics
to select the most appealing candidate. Prior approaches model one or more of
these sub-problems separately, and often combine them sequentially. We propose
a novel convolutional neural network (CNN) based method to crop images
directly, without explicitly modeling image aesthetics, evaluating multiple
crop candidates, or detecting visually salient regions. Our model is trained on
a large dataset of images cropped by experienced editors and can simultaneously
predict bounding boxes for multiple fixed aspect ratios. We consider the aspect
ratio of the cropped image to be a critical factor that influences aesthetics.
Prior approaches for automatic image cropping, did not enforce the aspect ratio
of the outputs, likely due to a lack of datasets for this task. We, therefore,
benchmark our method on public datasets for two related tasks - first,
aesthetic image cropping without regard to aspect ratio, and second, thumbnail
generation that requires fixed aspect ratio outputs, but where aesthetics are
not crucial. We show that our strategy is competitive with or performs better
than existing methods in both these tasks. Furthermore, our one-stage model is
easier to train and significantly faster than existing two-stage or end-to-end
methods for inference. We present a qualitative evaluation study, and find that
our model is able to generalize to diverse images from unseen datasets and
often retains compositional properties of the original images after cropping.
Our results demonstrate that explicitly modeling image aesthetics or visual
attention regions is not necessarily required to build a competitive image
cropping algorithm.
- Abstract(参考訳): 自動イメージクロッピングは、多くの実用的な下流アプリケーションで難しいタスクである。
タスクは、しばしばサブプロブレムに分割され、クロップ候補を生成し、視覚的に重要な領域を見つけ、最も魅力的な候補を選ぶための美学を決定する。
先行的なアプローチは、それぞれに1つまたは複数のサブプロームをモデル化し、しばしばそれらをシーケンシャルに組み合わせます。
本研究では,画像美観を明示的にモデル化せず,複数の作物候補を評価したり,視覚的に有意な領域を検知したりすることなく,画像を直接収穫する新しい畳み込みニューラルネットワーク(cnn)を提案する。
私たちのモデルは経験豊富なエディタが切り取った大規模なデータセットでトレーニングされ、複数の固定アスペクト比のバウンディングボックスを同時に予測できます。
クロッピング画像のアスペクト比は,美学に影響を与える重要な要因であると考えられる。
自動画像トリミングの以前のアプローチでは、おそらくこのタスクにデータセットが不足しているため、出力のアスペクト比を強制しなかった。
そこで,本稿では,2つの課題に対する公開データセットのベンチマークを行った。第1に,アスペクト比に係わらない美的イメージクロッピング,第2に,特定のアスペクト比の出力を必要とするサムネイル生成だが,美学は重要ではない。
当社の戦略は,両タスクの既存手法と競合するか,あるいはパフォーマンスがよいことを示す。
さらに,1段階モデルの方がトレーニングが容易で,既存の2段階あるいはエンドツーエンドの推論方法よりもはるかに高速です。
定性的評価実験を行い,本モデルが未知のデータセットから多種多様な画像に一般化でき,収穫後の原画像の組成特性をよく保持できることを示した。
画像の美学や視覚的な注意領域を明示的にモデル化することは,画像クロッピングアルゴリズムを構築する上で必ずしも必要ではないことを示す。
関連論文リスト
- Cropper: Vision-Language Model for Image Cropping through In-Context Learning [57.694845787252916]
画像トリミングの目標は、画像内の視覚的に魅力的な作物を特定することである。
近年の大規模視覚言語モデル(VLM)のブレークスルーにより、明示的なトレーニングを伴わずに、コンテキスト内学習が可能になった。
本稿では,VLMを画像トリミングに有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-08-14T20:03:03Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Spatial-Semantic Collaborative Cropping for User Generated Content [32.490403964193014]
大量のユーザ生成コンテンツ(UGC)が毎日インターネットにアップロードされ、世界中の人々に表示される。
以前の方法では、収穫された画像の美学を単に考慮しつつ、コンテンツの完全性を無視しているだけであり、これは収穫に不可欠である。
本稿では,任意のユーザ生成コンテンツを対象とした空間意味協調作付けネットワーク(S2CNet)を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:25:12Z) - Learning Subject-Aware Cropping by Outpainting Professional Photos [69.0772948657867]
本稿では,高品質な主観的作物を生産する要因を,プロのストックイメージから学習するための弱教師付きアプローチを提案する。
私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。
我々は、収穫された無作為のトレーニングペアの大規模なデータセットを自動的に生成して、収穫モデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-19T11:57:54Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Estimating Appearance Models for Image Segmentation via Tensor Factorization [0.0]
本稿では,画像からの外観モデルを直接推定する手法を提案する。
本手法は,潜時変モデルに対するテンソル分解に基づく推定器への入力として,画像からの局所的な高次色統計値を用いる。
このアプローチは、マルチリージョン画像のモデルを推定し、事前のユーザインタラクションなしで自動的にリージョン比を出力することができる。
論文 参考訳(メタデータ) (2022-08-16T17:21:00Z) - Image Aesthetics Assessment Using Graph Attention Network [17.277954886018353]
画像美学評価のためのグラフニューラルネットワークに基づく2段階のフレームワークを提案する。
まず、入力画像がグラフとしてモデル化され、元のアスペクト比と解像度を維持する特徴グラフ表現を提案する。
次に,この特徴グラフを用いて,視覚的注意を用いて入力画像の異なる領域間の意味的関係をキャプチャするグラフニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-26T12:52:46Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。