論文の概要: Human-centric Image Cropping with Partition-aware and Content-preserving
Features
- arxiv url: http://arxiv.org/abs/2207.10269v1
- Date: Thu, 21 Jul 2022 02:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:57:08.334917
- Title: Human-centric Image Cropping with Partition-aware and Content-preserving
Features
- Title(参考訳): 分割認識とコンテンツ保存機能を備えた人間中心画像クロッピング
- Authors: Bo Zhang, Li Niu, Xing Zhao, Liqing Zhang
- Abstract要約: 候補作物に2つの新しい特徴を持つ人中心画像収穫法を提案する。
分割認識機能では、画像全体を人間の境界ボックスに基づいて9つのパーティションに分割し、人間の情報に基づいて異なる条件の候補作物における異なるパーティションを処理する。
コンテンツ保存機能については,作物に含まれる重要な内容を示すヒートマップを予測し,ヒートマップと候補作物との幾何学的関係を抽出する。
- 参考スコア(独自算出の注目度): 23.692951740488365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image cropping aims to find visually appealing crops in an image, which is an
important yet challenging task. In this paper, we consider a specific and
practical application: human-centric image cropping, which focuses on the
depiction of a person. To this end, we propose a human-centric image cropping
method with two novel feature designs for the candidate crop: partition-aware
feature and content-preserving feature. For partition-aware feature, we divide
the whole image into nine partitions based on the human bounding box and treat
different partitions in a candidate crop differently conditioned on the human
information. For content-preserving feature, we predict a heatmap indicating
the important content to be included in a good crop, and extract the geometric
relation between the heatmap and a candidate crop. Extensive experiments
demonstrate that our method can perform favorably against state-of-the-art
image cropping methods on human-centric image cropping task. Code is available
at https://github.com/bcmi/Human-Centric-Image-Cropping.
- Abstract(参考訳): Image croppingは、画像の中に視覚的に魅力的な作物を見つけることを目的としている。
本稿では,人物の描写に焦点をあてた,人間中心のイメージクロッピングという,具体的かつ実用的な応用について考察する。
そこで本研究では, 分割認識機能とコンテンツ保存機能という, 新たな2つの特徴を持つ画像抽出手法を提案する。
分割認識機能では、画像全体を人間の境界ボックスに基づいて9つのパーティションに分割し、人間の情報に基づいて異なる条件の候補作物における異なるパーティションを扱う。
コンテンツ保存機能については,作物に含まれる重要な内容を示すヒートマップを予測し,ヒートマップと候補作物との幾何学的関係を抽出する。
広範な実験により,人間中心のイメージクロッピングタスクにおいて,最先端の画像クロッピング手法に対して好適に動作できることが証明された。
コードはhttps://github.com/bcmi/human-centric-image-croppingで入手できる。
関連論文リスト
- MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - Spatial-Semantic Collaborative Cropping for User Generated Content [32.490403964193014]
大量のユーザ生成コンテンツ(UGC)が毎日インターネットにアップロードされ、世界中の人々に表示される。
以前の方法では、収穫された画像の美学を単に考慮しつつ、コンテンツの完全性を無視しているだけであり、これは収穫に不可欠である。
本稿では,任意のユーザ生成コンテンツを対象とした空間意味協調作付けネットワーク(S2CNet)を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:25:12Z) - Global Context-Aware Person Image Generation [24.317541784957285]
文脈認識型人物画像生成のためのデータ駆動型アプローチを提案する。
本手法では,生成した人物の位置,規模,外観を,現場の既存人物に対して意味的に条件付けする。
論文 参考訳(メタデータ) (2023-02-28T16:34:55Z) - UMFuse: Unified Multi View Fusion for Human Editing applications [36.94334399493266]
複数のソース画像からポーズキーポイントとテクスチャを取り出すマルチビュー融合ネットワークを設計する。
提案した2つのタスク - マルチビューヒューマンリポジトリとMix&Matchヒューマンイメージ生成 - に対するネットワークの適用について述べる。
論文 参考訳(メタデータ) (2022-11-17T05:09:58Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Automatic Main Character Recognition for Photographic Studies [78.88882860340797]
画像の主人公は、最初に見る人の注意を引く最も重要な人間である。
画像中の主文字の同定は,従来の写真研究やメディア分析において重要な役割を担っている。
機械学習に基づく人間のポーズ推定を用いて主文字を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T18:14:45Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - HumanGPS: Geodesic PreServing Feature for Dense Human Correspondences [60.89437526374286]
先行芸術はフレーム間の小さな動きを仮定するか、または大きな動きや視覚的に曖昧な身体部分を扱うことができないローカル記述子に依存します。
本稿では,各画素を特徴空間にマッピングし,特徴距離が画素間の測地距離を反映する深層学習フレームワークを提案する。
セマンティックアノテーションがなければ、提案する埋め込みは自動的に学習し、視覚的に類似した部分を区別し、異なる主題を統一された機能空間にまとめる。
論文 参考訳(メタデータ) (2021-03-29T12:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。