論文の概要: 6th Place Solution to Google Universal Image Embedding
- arxiv url: http://arxiv.org/abs/2210.09377v1
- Date: Mon, 17 Oct 2022 19:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:18:17.825638
- Title: 6th Place Solution to Google Universal Image Embedding
- Title(参考訳): Google Universal Image Embeddingの6位
- Authors: S. Gkelios, A. Kastellos and S. Chatzichristofis
- Abstract要約: 本稿では,Kaggle上でのGoogle Universal Image Embeddingコンペティションの6位となるソリューションを提案する。
私たちのアプローチは、自然言語の監視から視覚表現を学ぶために使用される強力な事前学習モデルであるCLIPアーキテクチャに基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the 6th place solution to the Google Universal Image
Embedding competition on Kaggle. Our approach is based on the CLIP
architecture, a powerful pre-trained model used to learn visual representation
from natural language supervision. We also utilized the SubCenter ArcFace loss
with dynamic margins to improve the distinctive power of class separability and
embeddings. Finally, a diverse dataset has been created based on the test's set
categories and the leaderboard's feedback. By carefully crafting a training
scheme to enhance transfer learning, our submission scored 0.685 on the private
leaderboard.
- Abstract(参考訳): 本稿では,google universal image embedded competition on kaggleの第6位について述べる。
私たちのアプローチは、自然言語の監視から視覚表現を学ぶために使用される強力な事前学習モデルであるCLIPアーキテクチャに基づいている。
また,SubCenter ArcFace損失を動的マージンで利用して,クラス分離性と埋め込みの独特なパワーを向上した。
最後に、テストのセットカテゴリとリーダボードのフィードバックに基づいて、さまざまなデータセットが作成されている。
トランスファー学習を強化するためのトレーニングスキームを慎重に作成することにより、当社の応募はプライベートリーダーボードで0.685を獲得しました。
関連論文リスト
- Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - 5th Place Solution to Kaggle Google Universal Image Embedding
Competition [0.0]
本稿では,2022年のGoogle Universal Image Embedding Competitionで5位にランクインしたソリューションを提案する。
我々はopenclipリポジトリからのCLIPのViT-Hビジュアルエンコーダをバックボーンとして使用し、ArcFaceを使用してBatchNormalizationとLinear Layerで構成されたヘッドモデルをトレーニングする。
論文 参考訳(メタデータ) (2022-10-18T00:34:09Z) - 2nd Place Solution to Google Universal Image Embedding [0.0]
本稿では,Google Universal Image Embedding Competitionにおける第2位のソリューションについて述べる。
この競合を解くために、インスタンスレベルのきめ細かい画像分類法を用いる。
論文 参考訳(メタデータ) (2022-10-17T04:04:16Z) - 1st Place Solution in Google Universal Images Embedding [0.0]
本稿では,Google Universal Images Embedding Competition on Kaggleにおいて,第1位となるソリューションを提案する。
ソリューションの強調された部分は、1)トレーニングと微調整を行う新しい方法、2)埋め込みを行うモデルのプールにより良いアンサンブルのアイデア、3)高解像度と重なり合うパッチに対する微調整の潜在的なトレードオフに基づいています。
論文 参考訳(メタデータ) (2022-10-16T07:46:23Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - A Technical Report for VIPriors Image Classification Challenge [25.421167550087205]
本稿では,VIPriors Image Classification Challengeへの提出について報告する。
この課題では、事前訓練された重量なしでモデルをスクラッチからトレーニングする方法が難しい。
DeepBlueAIの最終的なトップ1の精度は0.7015で、リーダーボードで2位です。
論文 参考訳(メタデータ) (2020-07-17T02:30:09Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。