論文の概要: 5th Place Solution to Kaggle Google Universal Image Embedding
Competition
- arxiv url: http://arxiv.org/abs/2210.09495v1
- Date: Tue, 18 Oct 2022 00:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:59:17.633290
- Title: 5th Place Solution to Kaggle Google Universal Image Embedding
Competition
- Title(参考訳): Google Universal Image Embeddingコンペティション、第5位に
- Authors: Noriaki Ota, Shingo Yokoi, Shinsuke Yamaoka
- Abstract要約: 本稿では,2022年のGoogle Universal Image Embedding Competitionで5位にランクインしたソリューションを提案する。
我々はopenclipリポジトリからのCLIPのViT-Hビジュアルエンコーダをバックボーンとして使用し、ArcFaceを使用してBatchNormalizationとLinear Layerで構成されたヘッドモデルをトレーニングする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present our solution, which placed 5th in the kaggle Google
Universal Image Embedding Competition in 2022. We use the ViT-H visual encoder
of CLIP from the openclip repository as a backbone and train a head model
composed of BatchNormalization and Linear layers using ArcFace. The dataset
used was a subset of products10K, GLDv2, GPR1200, and Food101. And applying TTA
for part of images also improves the score. With this method, we achieve a
score of 0.684 on the public and 0.688 on the private leaderboard. Our code is
available.
https://github.com/riron1206/kaggle-Google-Universal-Image-Embedding-Competition-5th-Place-Solution
- Abstract(参考訳): 本稿では,2022年のGoogle Universal Image Embedding Competitionで5位にランクインしたソリューションを提案する。
我々はopenclipリポジトリからのCLIPのViT-Hビジュアルエンコーダをバックボーンとして使用し、ArcFaceを使用してBatchNormalizationとLinear Layerからなるヘッドモデルをトレーニングする。
使用されたデータセットはproducts10k、gldv2、gpr1200、food101のサブセットである。
また、画像の一部にTTAを適用することでスコアも向上する。
この方法により、一般大衆でのスコア0.684、プライベートリーダーボードでのスコア0.688を得る。
私たちのコードは利用可能です。
https://github.com/riron1206/kaggle-Google-Universal-Image-Embedding-Competition-5th-Place-Solution
関連論文リスト
- SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation [91.91385816767057]
オープンボキャブラリセマンティックセグメンテーションは、ピクセルをオープンなカテゴリの集合から異なるセマンティックグループに区別する試みである。
オープン語彙セマンティックセグメンテーションのための単純なエンコーダデコーダSEDを提案する。
SED法では、ADE20KではmIoUスコアが31.6%、A6000では画像あたり82ミリ秒(ms$)のカテゴリが150である。
論文 参考訳(メタデータ) (2023-11-27T05:00:38Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - 1st Place Solution of The Robust Vision Challenge (RVC) 2022 Semantic
Segmentation Track [67.56316745239629]
本報告では,ECCV 2022におけるロバストビジョンチャレンジのセマンティックセグメンテーション課題に対する勝利解について述べる。
本手法では,エンコーダとしてFAN-B-Hybridモデルを採用し,セグメンテーションフレームワークとしてSegformerを使用している。
提案手法は,マルチドメインセグメンテーションタスクの強力なベースラインとして機能し,今後の作業に役立てることができる。
論文 参考訳(メタデータ) (2022-10-23T20:52:22Z) - 6th Place Solution to Google Universal Image Embedding [0.0]
本稿では,Kaggle上でのGoogle Universal Image Embeddingコンペティションの6位となるソリューションを提案する。
私たちのアプローチは、自然言語の監視から視覚表現を学ぶために使用される強力な事前学習モデルであるCLIPアーキテクチャに基づいている。
論文 参考訳(メタデータ) (2022-10-17T19:19:46Z) - 2nd Place Solution to Google Universal Image Embedding [0.0]
本稿では,Google Universal Image Embedding Competitionにおける第2位のソリューションについて述べる。
この競合を解くために、インスタンスレベルのきめ細かい画像分類法を用いる。
論文 参考訳(メタデータ) (2022-10-17T04:04:16Z) - 1st Place Solution in Google Universal Images Embedding [0.0]
本稿では,Google Universal Images Embedding Competition on Kaggleにおいて,第1位となるソリューションを提案する。
ソリューションの強調された部分は、1)トレーニングと微調整を行う新しい方法、2)埋め込みを行うモデルのプールにより良いアンサンブルのアイデア、3)高解像度と重なり合うパッチに対する微調整の潜在的なトレードオフに基づいています。
論文 参考訳(メタデータ) (2022-10-16T07:46:23Z) - 3rd Place Solution for Google Universal Image Embedding [0.0]
本稿では,Google Universal Image Embedding Competition on Kaggleの3位となるソリューションを提案する。
我々はOpenCLIPのViT-H/14をArcFaceのバックボーンに使用し、2段階のトレーニングを行った。
プライベートなリーダーボード上でのPrecision @5の平均値は0.692です。
論文 参考訳(メタデータ) (2022-10-14T12:26:13Z) - GAMa: Cross-view Video Geo-localization [68.33955764543465]
我々は、文脈的手がかりを提供する画像ではなく、地上ビデオに焦点を当てている。
クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。
提案手法は,トップ1リコール率19.4%,45.1%@1.0マイルを達成する。
論文 参考訳(メタデータ) (2022-07-06T04:25:51Z) - 3rd Place Solution to Google Landmark Recognition Competition 2021 [17.59843220514826]
Google Landmark Recognition 2021コンペティションのソリューションを紹介します。
アンサンブルされたモデルは、民間のリーダーボードで0.489点を獲得し、2021年のGoogleランドマーク認識コンペティションで3位となった。
論文 参考訳(メタデータ) (2021-10-06T14:17:54Z) - Data-Efficient Instance Segmentation with a Single GPU [88.31338435907304]
我々は2021年のVIPriors Instance Challengeで使用したデータ効率のセグメンテーション手法を紹介した。
私たちのソリューションは、強力なツールボックスであるmmdetectionをベースにした、Swin Transformerの修正版です。
本手法は,全競技者の2位である0.592のAP@0.50:0.95(medium)を達成した。
論文 参考訳(メタデータ) (2021-10-01T07:36:20Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。