論文の概要: Repurposing Existing Deep Networks for Caption and Aesthetic-Guided
Image Cropping
- arxiv url: http://arxiv.org/abs/2201.02280v1
- Date: Fri, 7 Jan 2022 00:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-10 14:04:33.238753
- Title: Repurposing Existing Deep Networks for Caption and Aesthetic-Guided
Image Cropping
- Title(参考訳): キャプションと美的ガイド付き画像クロッピングのための既存ディープネットワークの再構成
- Authors: Nora Horanyi, Kedi Xia, Kwang Moo Yi, Abhishake Kumar Bojja, Ales
Leonardis, Hyung Jin Chang
- Abstract要約: 本稿では,ユーザ記述と美学に基づいて,与えられた画像を抽出する新しい最適化フレームワークを提案する。
当社のフレームワークは,意図したユーザ記述や美的満足度に整合した作物を生産することができる。
- 参考スコア(独自算出の注目度): 33.46066328197085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel optimization framework that crops a given image based on
user description and aesthetics. Unlike existing image cropping methods, where
one typically trains a deep network to regress to crop parameters or cropping
actions, we propose to directly optimize for the cropping parameters by
repurposing pre-trained networks on image captioning and aesthetic tasks,
without any fine-tuning, thereby avoiding training a separate network.
Specifically, we search for the best crop parameters that minimize a combined
loss of the initial objectives of these networks. To make the optimization
table, we propose three strategies: (i) multi-scale bilinear sampling, (ii)
annealing the scale of the crop region, therefore effectively reducing the
parameter space, (iii) aggregation of multiple optimization results. Through
various quantitative and qualitative evaluations, we show that our framework
can produce crops that are well-aligned to intended user descriptions and
aesthetically pleasing.
- Abstract(参考訳): 本稿では,ユーザ記述と美学に基づく画像の抽出を行う新しい最適化フレームワークを提案する。
収穫パラメータや収穫行動に回帰するためにディープ・ネットワークを訓練する既存の画像収穫法とは違って,画像キャプションや美容タスクの事前学習ネットワークを微調整せずに再利用することで,個別のネットワークのトレーニングを避けることで,収穫パラメータを直接最適化することを提案する。
具体的には、これらのネットワークの初期目的の損失を最小化する最高の作物パラメータを探索する。
最適化テーブルを作成するために、3つの戦略を提案します。
(i)マルチスケールバイリニアサンプリング。
(ii)作物の面積をアニールすることにより、パラメータ空間を効果的に減少させる。
(iii)複数の最適化結果の集約。
様々な量的・質的評価を通して,我々は,意図したユーザ記述によく適合した作物を生産し,美学的に満足できることを実証する。
関連論文リスト
- Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - ATASI-Net: An Efficient Sparse Reconstruction Network for Tomographic
SAR Imaging with Adaptive Threshold [13.379416816598873]
本稿では,解析的反復収縮しきい値決定アルゴリズム(ALISTA)に基づく,効率的なスパース展開ネットワークを提案する。
ATASI-Netの各層における重み行列は、オフライン最適化問題の解法として事前計算される。
さらに、各方位領域画素に対して適応しきい値を導入し、しきい値収縮を層蒸着だけでなく素子的にも可能とする。
論文 参考訳(メタデータ) (2022-11-30T09:55:45Z) - Differentiable Rendering with Perturbed Optimizers [85.66675707599782]
2Dイメージプロジェクションから3Dシーンを推論することは、コンピュータビジョンにおける中核的な問題の一つだ。
我々の研究は、よく知られた微分可能な定式化とランダムなスムーズなレンダリングの関連性を強調している。
提案手法を3次元シーン再構成に適用し,その利点を6次元ポーズ推定と3次元メッシュ再構成の課題に適用した。
論文 参考訳(メタデータ) (2021-10-18T08:56:23Z) - NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor
Multi-view Stereo [97.07453889070574]
本稿では,従来のSfM再構成と学習に基づく先行手法を併用した多視点深度推定手法を提案する。
提案手法は室内シーンにおける最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-02T17:54:31Z) - Riggable 3D Face Reconstruction via In-Network Optimization [58.016067611038046]
本稿では,単眼画像からの3次元顔再構成法を提案する。
表情、ポーズ、照明を含む画像ごとのパーソナライズされた顔リグとパラメータを共同で推定する。
実験により,SOTA復元精度,ロバスト性,一般化能力が得られた。
論文 参考訳(メタデータ) (2021-04-08T03:53:20Z) - Online Exemplar Fine-Tuning for Image-to-Image Translation [32.556050882376965]
ディープ畳み込みニューラルネットワーク(CNN)において、既存の画像から画像への変換を解決するには、ネットワークパラメータを最適化するためのトレーニングフェーズが必要である。
入力画像ペアが与えられたオンライン最適化により,先進的な翻訳を初めて解決する新しいフレームワークを提案する。
我々のフレームワークは、既存の手法の主な課題であるオフライントレーニングフェーズを必要とせず、オンラインの最適化を可能にするためにトレーニング済みのネットワークを必要としています。
論文 参考訳(メタデータ) (2020-11-18T15:13:16Z) - Road Segmentation for Remote Sensing Images using Adversarial Spatial
Pyramid Networks [28.32775611169636]
合成画像生成と道路分割に構造化領域適応を適用した新しいモデルを提案する。
マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入された。
我々のモデルは、14.89Mパラメータと86.78B FLOPを持つマサチューセッツのデータセット上で、最先端の78.86 IOUを達成し、4倍少ないFLOPを持つが、より高精度(+3.47% IOU)である。
論文 参考訳(メタデータ) (2020-08-10T11:00:19Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。