論文の概要: Efficient Large-Scale Vision Representation Learning
- arxiv url: http://arxiv.org/abs/2305.13399v2
- Date: Wed, 24 May 2023 12:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 11:04:07.055081
- Title: Efficient Large-Scale Vision Representation Learning
- Title(参考訳): 大規模視覚表現学習の効率化
- Authors: Eden Dolev, Alaa Awad, Denisa Roberts, Zahra Ebrahimzadeh, Marcin
Mejran, Vaibhav Malpani and Mahir Yavuz
- Abstract要約: 本稿では,大規模視覚表現学習モデルの微調整に用いるコントラスト技術について詳述する。
大規模なeコマースアプリケーションの課題を強調し、視覚的な表現をより効率的に訓練し、評価し、提供する取り組みを強調します。
- 参考スコア(独自算出の注目度): 0.13854111346209866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we present our approach to single-modality vision
representation learning. Understanding vision representations of product
content is vital for recommendations, search, and advertising applications in
e-commerce. We detail and contrast techniques used to fine tune large-scale
vision representation learning models in an efficient manner under low-resource
settings, including several pretrained backbone architectures, both in the
convolutional neural network as well as the vision transformer family. We
highlight the challenges for e-commerce applications at-scale and highlight the
efforts to more efficiently train, evaluate, and serve visual representations.
We present ablation studies for several downstream tasks, including our
visually similar ad recommendations. We evaluate the offline performance of the
derived visual representations in downstream tasks. To this end, we present a
novel text-to-image generative offline evaluation method for visually similar
recommendation systems. Finally, we include online results from deployed
machine learning systems in production at Etsy.
- Abstract(参考訳): 本稿では,単一モダリティ視覚表現学習へのアプローチについて述べる。
製品コンテンツのビジョン表現を理解することは、eコマースにおけるレコメンデーション、検索、広告アプリケーションにとって不可欠である。
我々は、畳み込みニューラルネットワークと視覚変換器ファミリーの両方において、複数の事前学習されたバックボーンアーキテクチャを含む、低リソース環境下で、大規模視覚表現学習モデルを効率的にチューニングするための技術の詳細とコントラストについて述べる。
大規模なeコマースアプリケーションの課題を強調し、視覚的な表現をより効率的に訓練し、評価し、提供する取り組みを強調します。
我々は,視覚的に類似した広告レコメンデーションを含むいくつかの下流タスクに対するアブレーション研究を行う。
下流タスクにおける視覚表現のオフライン性能を評価する。
そこで本研究では,視覚的に類似したレコメンデーションシステムのためのテキスト対画像生成オフライン評価手法を提案する。
最後に、etsyにデプロイされた機械学習システムのオンライン結果を含める。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z) - Efficient automated U-Net based tree crown delineation using UAV
multi-spectral imagery on embedded devices [2.7393821783237184]
ガイドラインのアプローチは、農業、環境、自然災害のモニタリングなど、様々な領域に重要な利益をもたらす。
ディープラーニングはコンピュータビジョンを変革し、機械翻訳を劇的に改善した。
マルチスペクトル画像を用いて効果的にトレーニングするU-Netベースツリーデライン化手法を提案するが,その上で単一スペクトル画像のデライン化を行うことができる。
論文 参考訳(メタデータ) (2021-07-16T11:17:36Z) - Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning [59.29452780994169]
本研究では,コンベネットを訓練して画像のバッフル・オブ・ビジュアルワード(bow)表現を再構築し,表現を学習する教師・学生計画を提案する。
私たちの戦略は、教師ネットワーク(BoWターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、ビジュアルワード語彙のオンライン更新を実行します。
論文 参考訳(メタデータ) (2020-12-21T18:31:21Z) - Visual Interest Prediction with Attentive Multi-Task Transfer Learning [6.177155931162925]
本稿では,デジタル写真における視覚的興味と感情の次元を予測するために,トランスファー学習とアテンション機構に基づくニューラルネットワークモデルを提案する。
ベンチマークデータセット上での本モデルの評価は,現在の最先端システムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-26T14:49:34Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。