論文の概要: Supervised Deep Learning for Content-Aware Image Retargeting with
Fourier Convolutions
- arxiv url: http://arxiv.org/abs/2306.07383v1
- Date: Mon, 12 Jun 2023 19:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:57:07.055125
- Title: Supervised Deep Learning for Content-Aware Image Retargeting with
Fourier Convolutions
- Title(参考訳): フーリエ畳み込みによるコンテンツ認識画像再ターゲティングのための教師付き深層学習
- Authors: MohammadHossein Givkashi, MohammadReza Naderi, Nader Karimi, Shahram
Shirani, Shadrokh Samavi
- Abstract要約: 画像は、コンテンツに注意して画像のサイズを変更することを目的としている。
ラベル付きデータセットは、イメージタスクでディープラーニングモデルのトレーニングには使用できない。
通常の畳み込みニューラルネットワークは、推論時間で異なるサイズの画像を生成することができない。
- 参考スコア(独自算出の注目度): 11.031841470875571
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image retargeting aims to alter the size of the image with attention to the
contents. One of the main obstacles to training deep learning models for image
retargeting is the need for a vast labeled dataset. Labeled datasets are
unavailable for training deep learning models in the image retargeting tasks.
As a result, we present a new supervised approach for training deep learning
models. We use the original images as ground truth and create inputs for the
model by resizing and cropping the original images. A second challenge is
generating different image sizes in inference time. However, regular
convolutional neural networks cannot generate images of different sizes than
the input image. To address this issue, we introduced a new method for
supervised learning. In our approach, a mask is generated to show the desired
size and location of the object. Then the mask and the input image are fed to
the network. Comparing image retargeting methods and our proposed method
demonstrates the model's ability to produce high-quality retargeted images.
Afterward, we compute the image quality assessment score for each output image
based on different techniques and illustrate the effectiveness of our approach.
- Abstract(参考訳): 画像再ターゲティングは、コンテンツに注意を向けて画像のサイズを変更することを目的としている。
画像再ターゲティングのためのディープラーニングモデルのトレーニングにおける大きな障害のひとつは、巨大なラベル付きデータセットの必要性である。
ラベル付きデータセットは、イメージリターゲティングタスクでディープラーニングモデルのトレーニングには使用できない。
その結果,ディープラーニングモデルをトレーニングするための新しい教師ありアプローチを提案する。
原画像は基礎的真理として使用し,原画像のサイズ変更と切り抜きによってモデルの入力を生成する。
第2の課題は、推論時間で異なる画像サイズを生成することだ。
しかし、通常の畳み込みニューラルネットワークは入力画像とは異なる大きさの画像を生成できない。
そこで本研究では,教師あり学習のための新しい手法を提案する。
提案手法では,対象の所望のサイズと位置を示すマスクが生成される。
そして、マスクと入力画像がネットワークに供給される。
画像再ターゲティング手法と提案手法を比較し,高品質な再ターゲティング画像を作成する能力を示す。
その後、異なる手法に基づいて、各出力画像の画質評価スコアを算出し、提案手法の有効性を示す。
関連論文リスト
- Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.23012718682634]
テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
本稿では,高能率画像の同定を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Interactive Image Selection and Training for Brain Tumor Segmentation Network [42.62139206176152]
画像マーカー(FLIM)からの特徴学習に基づく画像選択と訓練のための対話的手法を用いる。
その結果,本手法では,U字型ネットワークのエンコーダを訓練するための少数の画像を選択することができ,手動選択に匹敵する性能を得ることができ,また,バックプロパゲーションとトレーニング画像のトレーニングを施した同一のU字型ネットワークを超越することさえできた。
論文 参考訳(メタデータ) (2024-06-05T13:03:06Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Genetic Programming-Based Evolutionary Deep Learning for Data-Efficient
Image Classification [3.9310727060473476]
本稿では,データ効率のよい画像分類のための遺伝的プログラミングに基づく進化的深層学習手法を提案する。
この新しいアプローチは、画像領域と分類領域の両方から多くの重要な演算子を使用して、変数長モデルを自動的に進化させることができる。
フレキシブルな多層表現により、新しいアプローチは、タスクごとに浅いモデルや深いモデルやツリーを自動的に構築できる。
論文 参考訳(メタデータ) (2022-09-27T08:10:16Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。