論文の概要: Efficient Large-Scale Visual Representation Learning And Evaluation
- arxiv url: http://arxiv.org/abs/2305.13399v5
- Date: Tue, 1 Aug 2023 21:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 17:35:12.820878
- Title: Efficient Large-Scale Visual Representation Learning And Evaluation
- Title(参考訳): 大規模視覚表現学習の効率化と評価
- Authors: Eden Dolev, Alaa Awad, Denisa Roberts, Zahra Ebrahimzadeh, Marcin
Mejran, Vaibhav Malpani, and Mahir Yavuz
- Abstract要約: 大規模なeコマースビジョンアプリケーションにおける課題を解説し、視覚表現を効果的に訓練し、評価し、提供する方法を強調する。
いくつかの下流タスクにおける視覚的表現を評価するアブレーション研究について述べる。
大規模なeコマースプラットフォーム上にデプロイされた機械学習システムの実運用におけるオンライン結果を含める。
- 参考スコア(独自算出の注目度): 0.13192560874022083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently learning visual representations of items is vital for large-scale
recommendations. In this article we compare several pretrained efficient
backbone architectures, both in the convolutional neural network (CNN) and in
the vision transformer (ViT) family. We describe challenges in e-commerce
vision applications at scale and highlight methods to efficiently train,
evaluate, and serve visual representations. We present ablation studies
evaluating visual representations in several downstream tasks. To this end, we
present a novel multilingual text-to-image generative offline evaluation method
for visually similar recommendation systems. Finally, we include online results
from deployed machine learning systems in production on a large scale
e-commerce platform.
- Abstract(参考訳): アイテムの視覚的表現を効果的に学習することは、大規模レコメンデーションにとって不可欠である。
本稿では、convolutional neural network(cnn)とvision transformer(vit)ファミリの両方で、事前トレーニングされた効率的なバックボーンアーキテクチャを比較します。
大規模なeコマースビジョンアプリケーションにおける課題を解説し、視覚表現を効果的に訓練し、評価し、提供する方法を強調する。
いくつかの下流タスクにおける視覚的表現を評価するアブレーション研究について述べる。
そこで本研究では,視覚類似のレコメンデーションシステムのための多言語音声から画像へのオフライン評価手法を提案する。
最後に、大規模eコマースプラットフォーム上にデプロイされた機械学習システムのオンライン結果を含める。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z) - Efficient automated U-Net based tree crown delineation using UAV
multi-spectral imagery on embedded devices [2.7393821783237184]
ガイドラインのアプローチは、農業、環境、自然災害のモニタリングなど、様々な領域に重要な利益をもたらす。
ディープラーニングはコンピュータビジョンを変革し、機械翻訳を劇的に改善した。
マルチスペクトル画像を用いて効果的にトレーニングするU-Netベースツリーデライン化手法を提案するが,その上で単一スペクトル画像のデライン化を行うことができる。
論文 参考訳(メタデータ) (2021-07-16T11:17:36Z) - Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning [59.29452780994169]
本研究では,コンベネットを訓練して画像のバッフル・オブ・ビジュアルワード(bow)表現を再構築し,表現を学習する教師・学生計画を提案する。
私たちの戦略は、教師ネットワーク(BoWターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、ビジュアルワード語彙のオンライン更新を実行します。
論文 参考訳(メタデータ) (2020-12-21T18:31:21Z) - Visual Interest Prediction with Attentive Multi-Task Transfer Learning [6.177155931162925]
本稿では,デジタル写真における視覚的興味と感情の次元を予測するために,トランスファー学習とアテンション機構に基づくニューラルネットワークモデルを提案する。
ベンチマークデータセット上での本モデルの評価は,現在の最先端システムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-26T14:49:34Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。