論文の概要: Spatial-Semantic Collaborative Cropping for User Generated Content
- arxiv url: http://arxiv.org/abs/2401.08086v1
- Date: Tue, 16 Jan 2024 03:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:14:03.266737
- Title: Spatial-Semantic Collaborative Cropping for User Generated Content
- Title(参考訳): ユーザ生成コンテンツのための空間意味的協調的クロップ
- Authors: Yukun Su, Yiwen Cao, Jingliang Deng, Fengyun Rao, Qingyao Wu
- Abstract要約: 大量のユーザ生成コンテンツ(UGC)が毎日インターネットにアップロードされ、世界中の人々に表示される。
以前の方法では、収穫された画像の美学を単に考慮しつつ、コンテンツの完全性を無視しているだけであり、これは収穫に不可欠である。
本稿では,任意のユーザ生成コンテンツを対象とした空間意味協調作付けネットワーク(S2CNet)を提案する。
- 参考スコア(独自算出の注目度): 32.490403964193014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large amount of User Generated Content (UGC) is uploaded to the Internet
daily and displayed to people world-widely through the client side (e.g.,
mobile and PC). This requires the cropping algorithms to produce the aesthetic
thumbnail within a specific aspect ratio on different devices. However,
existing image cropping works mainly focus on landmark or landscape images,
which fail to model the relations among the multi-objects with the complex
background in UGC. Besides, previous methods merely consider the aesthetics of
the cropped images while ignoring the content integrity, which is crucial for
UGC cropping. In this paper, we propose a Spatial-Semantic Collaborative
cropping network (S2CNet) for arbitrary user generated content accompanied by a
new cropping benchmark. Specifically, we first mine the visual genes of the
potential objects. Then, the suggested adaptive attention graph recasts this
task as a procedure of information association over visual nodes. The
underlying spatial and semantic relations are ultimately centralized to the
crop candidate through differentiable message passing, which helps our network
efficiently to preserve both the aesthetics and the content integrity.
Extensive experiments on the proposed UGCrop5K and other public datasets
demonstrate the superiority of our approach over state-of-the-art counterparts.
Our project is available at https://github.com/suyukun666/S2CNet.
- Abstract(参考訳): 大量のユーザ生成コンテンツ(UGC)が毎日インターネットにアップロードされ、クライアント側(モバイルやPCなど)で世界中に表示される。
これは、異なるデバイス上で特定のアスペクト比で美的サムネイルを作成するためにトリッピングアルゴリズムを必要とする。
しかし、既存の画像トリミングは主にランドマークやランドスケープイメージに焦点を当てており、UGCの複雑な背景とマルチオブジェクト間の関係をモデル化できない。
さらに,従来の手法では,コンテントの完全性を無視しつつ,クロップ画像の美的性質のみを考慮し,uccクロップには不可欠である。
本稿では,任意のユーザ生成コンテンツを対象とした空間意味協調型収穫ネットワーク(S2CNet)を提案する。
具体的には、まず潜在的なオブジェクトの視覚遺伝子をマイニングします。
次に,提案するアダプティブアテンショングラフは,視覚ノード上での情報関連付けの手順として,このタスクを再キャストする。
基礎となる空間的・意味的関係は最終的に、微分可能なメッセージパッシングを通じて作物候補に集中し、ネットワークが美学とコンテンツの完全性の両方を維持するのを効率的に支援します。
提案されたugcrop5kや他の公開データセットに関する広範な実験は、最先端のデータセットよりも、我々のアプローチが優れていることを示している。
私たちのプロジェクトはhttps://github.com/suyukun666/S2CNetで利用可能です。
関連論文リスト
- Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - An Experience-based Direct Generation approach to Automatic Image
Cropping [0.0]
画像美学を明示的にモデル化することなく,画像を直接収穫する新しい手法を提案する。
我々のモデルは、経験豊富な編集者が収集した画像の大規模なデータセットに基づいて訓練されている。
我々の戦略は2つの関連するタスクにおいて既存の手法と競合するか、あるいは性能が良いことを示す。
論文 参考訳(メタデータ) (2022-12-30T06:25:27Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Spatial Content Alignment For Pose Transfer [13.018067816407923]
衣服のテクスチャーのコンテンツ一貫性と人間の特性の詳細を高めるための新しいフレームワークを提案します。
まず,前もってターゲットポーズにエッジ内容の転送を行うことにより,空間的不整合を緩和する。
第二に、フォトリアリスティックな人物画像を順調に合成できる新しいContent-Style DeBlkを紹介します。
論文 参考訳(メタデータ) (2021-03-31T06:10:29Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。