論文の概要: Single Image Texture Translation for Data Augmentation
- arxiv url: http://arxiv.org/abs/2106.13804v1
- Date: Fri, 25 Jun 2021 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:19:49.682240
- Title: Single Image Texture Translation for Data Augmentation
- Title(参考訳): データ拡張のための単一画像テクスチャ変換
- Authors: Boyi Li and Yin Cui and Tsung-Yi Lin and Serge Belongie
- Abstract要約: 本稿では,ソーステクスチャの単一入力に基づいて,テクスチャを画像に翻訳する軽量モデルを提案する。
次に、長い尾と少数ショットの画像分類タスクにおける拡張データの利用について検討する。
提案手法は,入力データを対象領域に翻訳し,一貫した画像認識性能の向上を実現する。
- 参考スコア(独自算出の注目度): 24.412953581659448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in image synthesis enables one to translate images by
learning the mapping between a source domain and a target domain. Existing
methods tend to learn the distributions by training a model on a variety of
datasets, with results evaluated largely in a subjective manner. Relatively few
works in this area, however, study the potential use of semantic image
translation methods for image recognition tasks. In this paper, we explore the
use of Single Image Texture Translation (SITT) for data augmentation. We first
propose a lightweight model for translating texture to images based on a single
input of source texture, allowing for fast training and testing. Based on SITT,
we then explore the use of augmented data in long-tailed and few-shot image
classification tasks. We find the proposed method is capable of translating
input data into a target domain, leading to consistent improved image
recognition performance. Finally, we examine how SITT and related image
translation methods can provide a basis for a data-efficient, augmentation
engineering approach to model training.
- Abstract(参考訳): 画像合成の最近の進歩により、ソースドメインとターゲットドメインのマッピングを学習することで、画像の翻訳が可能になる。
既存の手法では、様々なデータセット上でモデルをトレーニングすることで分布を学習する傾向があり、その結果は主観的に評価される。
しかし,画像認識タスクにおける意味的画像翻訳手法の可能性について検討する研究は比較的少ない。
本稿では,データ拡張におけるSITT(Single Image Texture Translation)の利用について検討する。
まず,ソーステクスチャの単一の入力に基づいてテクスチャを画像に変換する軽量モデルを提案し,高速なトレーニングとテストを可能にした。
SITTに基づいて、長い尾と少数ショットの画像分類タスクにおける拡張データの利用について検討する。
提案手法は,入力データを対象領域に翻訳し,一貫した画像認識性能の向上を実現する。
最後に、SITTと関連する画像翻訳手法が、モデルトレーニングにおけるデータ効率向上工学アプローチの基盤となるかを検討する。
関連論文リスト
- Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models [0.0]
自己教師付き学習は、効果的に訓練された場合、多数の画像や言語処理の問題を解決することができる。
本研究では, セマンティックセグメンテーションタスクに対して, 以前に学習した基礎モデルを適用するための簡易かつ効率的な手法について検討した。
本研究は,少数の画像分割データを用いて,凍結画像表現と言語概念を融合する軽量トランスフォーマーベース融合モジュールであるBeyond-Labelsを提案する。
論文 参考訳(メタデータ) (2025-01-28T07:49:52Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Adapt Anything: Tailor Any Image Classifiers across Domains And
Categories Using Text-to-Image Diffusion Models [82.95591765009105]
我々は,現代テキスト・画像拡散モデルが,ドメインやカテゴリ間でタスク適応型画像分類器をカスタマイズできるかどうかを検討することを目的とする。
対象のテキストプロンプトから派生したカテゴリラベルを用いた画像合成には,1つのオフ・ザ・シェルフテキスト・ツー・イメージモデルのみを用いる。
論文 参考訳(メタデータ) (2023-10-25T11:58:14Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - Few-shot Semantic Image Synthesis with Class Affinity Transfer [23.471210664024067]
そこで本研究では,大規模なデータセット上でトレーニングされたモデルを利用して,小規模なターゲットデータセット上での学習能力を向上させるトランスファー手法を提案する。
クラス親和性行列は、ターゲットラベルマップと互換性を持たせるために、ソースモデルの第一層として導入される。
セマンティック・セマンティック・シンセサイザー(セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アーキテクチャー)にアプローチを適用する。
論文 参考訳(メタデータ) (2023-04-05T09:24:45Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。
我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。
実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文 参考訳(メタデータ) (2020-11-19T16:09:14Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。