論文の概要: Efficient Large-Scale Visual Representation Learning And Evaluation
- arxiv url: http://arxiv.org/abs/2305.13399v4
- Date: Mon, 17 Jul 2023 22:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 18:37:22.440333
- Title: Efficient Large-Scale Visual Representation Learning And Evaluation
- Title(参考訳): 大規模視覚表現学習の効率化と評価
- Authors: Eden Dolev, Alaa Awad, Denisa Roberts, Zahra Ebrahimzadeh, Marcin
Mejran, Vaibhav Malpani, and Mahir Yavuz
- Abstract要約: 大規模視覚表現学習モデルの微調整に使用される手法の詳細とコントラストについて述べる。
電子商取引アプリケーションにおける課題を大規模に説明し、視覚的表現をより効率的に訓練し、評価し、提供する取り組みを強調します。
- 参考スコア(独自算出の注目度): 0.13192560874022083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we present our approach to single-modality visual
representation learning. Understanding visual representations of items is vital
for fashion recommendations in e-commerce. We detail and contrast techniques
used to finetune large-scale visual representation learning models in an
efficient manner under low-resource settings, including several pretrained
backbone architectures, both in the convolutional neural network as well as the
vision transformer family. We describe the challenges for e-commerce
applications at-scale and highlight the efforts to more efficiently train,
evaluate, and serve visual representations. We present ablation studies
evaluating the representation offline performance for several downstream tasks,
including visually similar ad recommendations on mobile devices. To this end,
we present a novel multilingual text-to-image generative offline evaluation
method for visually similar recommendation systems. Finally, we include online
results from deployed machine learning systems in production at Etsy.
- Abstract(参考訳): 本稿では,単一モダリティ視覚表現学習へのアプローチについて述べる。
アイテムの視覚的表現を理解することは、eコマースにおけるファッションレコメンデーションに不可欠である。
畳み込みニューラルネットワークとビジョントランスフォーマーファミリの両方において、複数の事前学習されたバックボーンアーキテクチャを含む低リソース環境下で、大規模視覚表現学習モデルを効率的に微調整するための技術の詳細とコントラストについて述べる。
電子商取引アプリケーションの課題を大規模に説明し、視覚的表現をより効率的に訓練し、評価し、提供する取り組みを強調します。
本稿では,モバイル端末上での視覚的に類似した広告レコメンデーションを含む,ダウンストリームタスクにおけるオフライン表示性能の評価を行う。
そこで本研究では,視覚類似のレコメンデーションシステムのための多言語音声から画像へのオフライン評価手法を提案する。
最後に、etsyにデプロイされた機械学習システムのオンライン結果を含める。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z) - Efficient automated U-Net based tree crown delineation using UAV
multi-spectral imagery on embedded devices [2.7393821783237184]
ガイドラインのアプローチは、農業、環境、自然災害のモニタリングなど、様々な領域に重要な利益をもたらす。
ディープラーニングはコンピュータビジョンを変革し、機械翻訳を劇的に改善した。
マルチスペクトル画像を用いて効果的にトレーニングするU-Netベースツリーデライン化手法を提案するが,その上で単一スペクトル画像のデライン化を行うことができる。
論文 参考訳(メタデータ) (2021-07-16T11:17:36Z) - Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning [59.29452780994169]
本研究では,コンベネットを訓練して画像のバッフル・オブ・ビジュアルワード(bow)表現を再構築し,表現を学習する教師・学生計画を提案する。
私たちの戦略は、教師ネットワーク(BoWターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、ビジュアルワード語彙のオンライン更新を実行します。
論文 参考訳(メタデータ) (2020-12-21T18:31:21Z) - Visual Interest Prediction with Attentive Multi-Task Transfer Learning [6.177155931162925]
本稿では,デジタル写真における視覚的興味と感情の次元を予測するために,トランスファー学習とアテンション機構に基づくニューラルネットワークモデルを提案する。
ベンチマークデータセット上での本モデルの評価は,現在の最先端システムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-26T14:49:34Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。