論文の概要: Single-image driven 3d viewpoint training data augmentation for effective wine label recognition
- arxiv url: http://arxiv.org/abs/2404.08820v1
- Date: Fri, 12 Apr 2024 21:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:32:47.984792
- Title: Single-image driven 3d viewpoint training data augmentation for effective wine label recognition
- Title(参考訳): ワインラベル認識のためのシングルイメージ駆動3次元視点学習データ強化
- Authors: Yueh-Cheng Huang, Hsin-Yi Chen, Cheng-Jui Hung, Jen-Hui Chuang, Jenq-Neng Hwang,
- Abstract要約: 本稿では,ワインラベル認識に適した新しい3次元視点拡張手法を提案する。
実世界のワインラベル画像から視覚的にリアルなトレーニングサンプルを生成し、テキストとロゴの複雑な組み合わせによって生じる課題を克服する。
実験の結果,従来の2次元データ拡張技術に比べて認識精度が有意に向上した。
- 参考スコア(独自算出の注目度): 22.78001012725134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confronting the critical challenge of insufficient training data in the field of complex image recognition, this paper introduces a novel 3D viewpoint augmentation technique specifically tailored for wine label recognition. This method enhances deep learning model performance by generating visually realistic training samples from a single real-world wine label image, overcoming the challenges posed by the intricate combinations of text and logos. Classical Generative Adversarial Network (GAN) methods fall short in synthesizing such intricate content combination. Our proposed solution leverages time-tested computer vision and image processing strategies to expand our training dataset, thereby broadening the range of training samples for deep learning applications. This innovative approach to data augmentation circumvents the constraints of limited training resources. Using the augmented training images through batch-all triplet metric learning on a Vision Transformer (ViT) architecture, we can get the most discriminative embedding features for every wine label, enabling us to perform one-shot recognition of existing wine labels in the training classes or future newly collected wine labels unavailable in the training. Experimental results show a significant increase in recognition accuracy over conventional 2D data augmentation techniques.
- Abstract(参考訳): 本稿では, 複雑な画像認識の分野において, トレーニングデータ不足を克服する上で重要な課題として, ワインラベル認識に適した新しい3次元視点強調手法を提案する。
本手法は,1つの実世界のワインラベル画像から視覚的にリアルなトレーニングサンプルを生成し,テキストとロゴの複雑な組み合わせによって生じる課題を克服することにより,ディープラーニングモデルの性能を向上させる。
古典的生成逆ネットワーク(GAN)法は、そのような複雑なコンテンツの組み合わせを合成するのに不足する。
提案手法は、時間テストされたコンピュータビジョンと画像処理戦略を利用してトレーニングデータセットを拡張し、ディープラーニングアプリケーションのためのトレーニングサンプルの範囲を広げる。
データ拡張に対するこの革新的なアプローチは、限られたトレーニングリソースの制約を回避する。
視覚変換器(ViT)アーキテクチャを用いたバッチ・オール・トリプレット・メトリック・ラーニングによる強化トレーニング画像を用いて、各ワインラベルに対して最も差別的な埋め込み機能を得ることができ、トレーニングクラスや今後新たに収集されるワインラベルにおいて、既存のワインラベルのワンショット認識を行うことができる。
実験の結果,従来の2次元データ拡張技術に比べて認識精度が有意に向上した。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Integration of Self-Supervised BYOL in Semi-Supervised Medical Image Recognition [10.317372960942972]
本稿では,自己教師付き学習を半教師付きモデルに統合し,医用画像認識を向上する,革新的なアプローチを提案する。
提案手法はラベルのないデータを最適に活用し,医用画像認識の精度で既存の手法より優れている。
論文 参考訳(メタデータ) (2024-04-16T09:12:16Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Training on Thin Air: Improve Image Classification with Generated Data [28.96941414724037]
Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。
生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
論文 参考訳(メタデータ) (2023-05-24T16:33:02Z) - Procedural Image Programs for Representation Learning [62.557911005179946]
我々は,2万プログラムからなる大規模なデータセットを用いて,多様な合成画像を生成する訓練を提案する。
これらのプログラムは短いコードスニペットであり、変更が容易で、高速に実行することができる。
提案したデータセットは、教師付きおよび教師なしの表現学習の両方に使用することができ、実際の画像と手続き的に生成された画像との事前学習のギャップを38%削減する。
論文 参考訳(メタデータ) (2022-11-29T17:34:22Z) - Image Data Augmentation for Deep Learning: A Survey [8.817690876855728]
我々は、異なる画像データ拡張手法を体系的にレビューする。
本稿では,レビュー手法の分類法を提案し,これらの手法の長所と短所について述べる。
また,3種類のコンピュータビジョンタスクに対して,様々なデータ拡張手法による広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-19T02:05:56Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。