論文の概要: Learning Subject-Aware Cropping by Outpainting Professional Photos
- arxiv url: http://arxiv.org/abs/2312.12080v1
- Date: Tue, 19 Dec 2023 11:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:51:46.178608
- Title: Learning Subject-Aware Cropping by Outpainting Professional Photos
- Title(参考訳): プロの写真のアウトペイントによる被写体認識クロップの学習
- Authors: James Hong, Lu Yuan, Micha\"el Gharbi, Matthew Fisher, Kayvon
Fatahalian
- Abstract要約: 本稿では,高品質な主観的作物を生産する要因を,プロのストックイメージから学習するための弱教師付きアプローチを提案する。
私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。
我々は、収穫された無作為のトレーニングペアの大規模なデータセットを自動的に生成して、収穫モデルをトレーニングすることができる。
- 参考スコア(独自算出の注目度): 66.19494654346795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to frame (or crop) a photo often depends on the image subject and its
context; e.g., a human portrait. Recent works have defined the subject-aware
image cropping task as a nuanced and practical version of image cropping. We
propose a weakly-supervised approach (GenCrop) to learn what makes a
high-quality, subject-aware crop from professional stock images. Unlike
supervised prior work, GenCrop requires no new manual annotations beyond the
existing stock image collection. The key challenge in learning from this data,
however, is that the images are already cropped and we do not know what regions
were removed. Our insight is combine a library of stock images with a modern,
pre-trained text-to-image diffusion model. The stock image collection provides
diversity and its images serve as pseudo-labels for a good crop, while the
text-image diffusion model is used to out-paint (i.e., outward inpainting)
realistic uncropped images. Using this procedure, we are able to automatically
generate a large dataset of cropped-uncropped training pairs to train a
cropping model. Despite being weakly-supervised, GenCrop is competitive with
state-of-the-art supervised methods and significantly better than comparable
weakly-supervised baselines on quantitative and qualitative evaluation metrics.
- Abstract(参考訳): 写真のフレーム(あるいは作物)の作り方は、画像の主題とその文脈、例えば人間の肖像画に依存することが多い。
近年の研究では、被写体認識画像トリミングタスクを、画像トリミングのニュアンスで実践的なバージョンとして定義している。
本稿では,プロのストックイメージから高品質な主観認識作物の作法を学ぶために,弱教師付きアプローチ(GenCrop)を提案する。
監督済みの以前の作業とは異なり、gencropは既存のストックイメージコレクション以外に新しい手動アノテーションを必要としない。
しかし、このデータから学ぶ上での重要な課題は、画像がすでに切り取られており、どの領域が削除されたのか分からないことだ。
私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。
ストック画像収集は、多様性を提供し、その画像は、良好な作物のための擬似ラベルとして機能し、テキスト画像拡散モデルは、現実的な(すなわち、外向きの塗布)非クロッピング画像に使用される。
この手法を用いることで、クロッピングモデルのトレーニングを行うために、クロッピングされていないトレーニングペアの大規模なデータセットを自動的に生成することができる。
GenCropは、弱教師付きであるにもかかわらず、最先端の教師付き手法と競合し、定量的および定性的な評価指標の弱教師付きベースラインよりもはるかに優れている。
関連論文リスト
- Cropper: Vision-Language Model for Image Cropping through In-Context Learning [57.694845787252916]
画像トリミングの目標は、画像内の視覚的に魅力的な作物を特定することである。
近年の大規模視覚言語モデル(VLM)のブレークスルーにより、明示的なトレーニングを伴わずに、コンテキスト内学習が可能になった。
本稿では,VLMを画像トリミングに有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-08-14T20:03:03Z) - MagiCapture: High-Resolution Multi-Concept Portrait Customization [34.131515004434846]
MagiCaptureは、高解像度のポートレート画像を生成するために、主題とスタイルの概念を統合するパーソナライズ方法である。
本稿では,この弱教師付き学習環境内での頑健な学習を支援する,補助的先行学習と組み合わせた注意再焦点損失について紹介する。
私たちのパイプラインには、非常に現実的なアウトプットの生成を保証するための、追加のプロセス後ステップも含まれています。
論文 参考訳(メタデータ) (2023-09-13T11:37:04Z) - Generating images of rare concepts using pre-trained diffusion models [32.5337654536764]
テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。
これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。
ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:55:38Z) - Saliency Guided Contrastive Learning on Scene Images [71.07412958621052]
我々は、学習中のモデルの出力から導かれるサリエンシマップを活用し、差別的な領域を強調し、対照的な学習全体をガイドする。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
論文 参考訳(メタデータ) (2023-02-22T15:54:07Z) - An Experience-based Direct Generation approach to Automatic Image
Cropping [0.0]
画像美学を明示的にモデル化することなく,画像を直接収穫する新しい手法を提案する。
我々のモデルは、経験豊富な編集者が収集した画像の大規模なデータセットに基づいて訓練されている。
我々の戦略は2つの関連するタスクにおいて既存の手法と競合するか、あるいは性能が良いことを示す。
論文 参考訳(メタデータ) (2022-12-30T06:25:27Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - CtlGAN: Few-shot Artistic Portraits Generation with Contrastive Transfer
Learning [77.27821665339492]
CtlGANは、新しいコントラッシブ・トランスファー学習戦略を備えた、数発のアート・ポートレート生成モデルである。
ソースドメインで事前訓練したStyleGANを,対象の芸術領域に適応させる。
実面をZ+空間に埋め込んだ新しいエンコーダを提案し,適応型デコーダに対処するためのデュアルパストレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-16T13:28:17Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - Self-Adaptively Learning to Demoire from Focused and Defocused Image
Pairs [97.67638106818613]
モアレアーティファクトはデジタル写真では一般的であり、高周波シーンコンテンツとカメラのカラーフィルタアレイとの干渉によるものである。
大規模反復で訓練された既存のディープラーニングに基づく復習手法は、様々な複雑なモアレパターンを扱う場合に限られる。
本稿では,高頻度画像の復調のための自己適応学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T23:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。