論文の概要: Semantic Image Cropping
- arxiv url: http://arxiv.org/abs/2107.07153v1
- Date: Thu, 15 Jul 2021 06:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-17 01:18:20.516234
- Title: Semantic Image Cropping
- Title(参考訳): セマンティック画像のクロッピング
- Authors: Oriol Corcoll
- Abstract要約: 画像抽出は画像に含まれる意味情報を利用することで、ある実体に対する画像の関連性を高めることができると私は論じる。
画像毎に少なくとも2つの異なる実体を持つ100個の画像と、4つの真理収穫を含む新しいデータセットを提供する。
画像のセマンティックな情報を使うことで、より優れたトリミングを実現できることを示すため、新しいセマンティックなトリミングデータセットを用いてパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic image cropping techniques are commonly used to enhance the
aesthetic quality of an image; they do it by detecting the most beautiful or
the most salient parts of the image and removing the unwanted content to have a
smaller image that is more visually pleasing. In this thesis, I introduce an
additional dimension to the problem of cropping, semantics. I argue that image
cropping can also enhance the image's relevancy for a given entity by using the
semantic information contained in the image. I call this problem, Semantic
Image Cropping. To support my argument, I provide a new dataset containing 100
images with at least two different entities per image and four ground truth
croppings collected using Amazon Mechanical Turk. I use this dataset to show
that state-of-the-art cropping algorithms that only take into account
aesthetics do not perform well in the problem of semantic image cropping.
Additionally, I provide a new deep learning system that takes not just
aesthetics but also semantics into account to generate image croppings, and I
evaluate its performance using my new semantic cropping dataset, showing that
using the semantic information of an image can help to produce better
croppings.
- Abstract(参考訳): 画像の最も美しい部分や最も貴重な部分を検出し、望ましくないコンテンツを取り除き、より視覚的に心地よい小さな画像にすることで、画像の美的品質を高めるために、自動的な画像切り抜き技術が一般的に用いられる。
本論文では,切り抜きの問題,セマンティクスに新たな次元を導入する。
また,画像に含まれる意味情報を利用することで,画像の収穫性を高めることができると論じる。
私はこの問題をSemantic Image Croppingと呼んでいる。
議論を支持するために、画像毎に少なくとも2つの異なるエンティティを持つ100のイメージと、Amazon Mechanical Turkを使用して収集された4つの地上真実の収穫データを含む新しいデータセットを提供する。
このデータセットを使用して、美学のみを考慮に入れた最先端のクロッピングアルゴリズムが、セマンティックな画像クロッピングの問題でうまく機能しないことを示す。
さらに,イメージクロッピングを生成するために,美学だけでなく意味論も考慮した新しい深層学習システムを提供し,その性能を評価するために,新しいセマンティッククロッピングデータセットを用いて画像の意味情報を利用することで、より優れたクロッピングを生成することができることを示す。
関連論文リスト
- Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Spatial-Semantic Collaborative Cropping for User Generated Content [32.490403964193014]
大量のユーザ生成コンテンツ(UGC)が毎日インターネットにアップロードされ、世界中の人々に表示される。
以前の方法では、収穫された画像の美学を単に考慮しつつ、コンテンツの完全性を無視しているだけであり、これは収穫に不可欠である。
本稿では,任意のユーザ生成コンテンツを対象とした空間意味協調作付けネットワーク(S2CNet)を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:25:12Z) - Learning Subject-Aware Cropping by Outpainting Professional Photos [69.0772948657867]
本稿では,高品質な主観的作物を生産する要因を,プロのストックイメージから学習するための弱教師付きアプローチを提案する。
私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。
我々は、収穫された無作為のトレーニングペアの大規模なデータセットを自動的に生成して、収穫モデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-19T11:57:54Z) - Learning from Rich Semantics and Coarse Locations for Long-tailed Object
Detection [157.18560601328534]
RichSemは、正確なバウンディングボックスを必要とせずに、粗い場所からリッチなセマンティクスを学ぶための堅牢な方法である。
我々はこれらのソフトセマンティクスを学習し、長い尾を持つ物体検出のための特徴表現を強化するために、セマンティクス分岐を検出器に追加する。
本手法は,複雑なトレーニングやテスト手順を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-18T17:59:41Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T20:48:41Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。