論文の概要: Runner-Up Solution to Google Universal Image Embedding Competition 2022
- arxiv url: http://arxiv.org/abs/2210.08735v1
- Date: Mon, 17 Oct 2022 04:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:27:52.068242
- Title: Runner-Up Solution to Google Universal Image Embedding Competition 2022
- Title(参考訳): Google Universal Image Embedding Competition 2022のランナーアップソリューション
- Authors: Xiaolong Huang, QianKun Li
- Abstract要約: 本稿では,Google Universal Image Embedding Competitionにおける第2位のソリューションについて述べる。
この競合を解くために、インスタンスレベルのきめ細かい画像分類法を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image representations are a critical building block of computer vision
applications. This paper presents the 2nd place solution to the Google
Universal Image Embedding Competition, which is part of the ECCV2022
instance-level recognition workshops. We use the instance-level fine-grained
image classification method to complete this competition. We focus on data
building and processing, model structure, and training strategies. Finally, the
solution scored 0.713 on the public leaderboard and 0.709 on the private
leaderboard.
- Abstract(参考訳): 画像表現はコンピュータビジョンアプリケーションの重要な構成要素である。
本稿では,ECCV2022インスタンスレベルの認識ワークショップの一部であるGoogle Universal Image Embedding Competitionの2番目のソリューションを提案する。
この競合を解くために、インスタンスレベルのきめ細かい画像分類法を用いる。
データの構築と処理、モデル構造、トレーニング戦略に重点を置いています。
最後に、ソリューションは公開リーダーボードで0.713、プライベートリーダーボードで0.709だった。
関連論文リスト
- ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - 5th Place Solution to Kaggle Google Universal Image Embedding
Competition [0.0]
本稿では,2022年のGoogle Universal Image Embedding Competitionで5位にランクインしたソリューションを提案する。
我々はopenclipリポジトリからのCLIPのViT-Hビジュアルエンコーダをバックボーンとして使用し、ArcFaceを使用してBatchNormalizationとLinear Layerで構成されたヘッドモデルをトレーニングする。
論文 参考訳(メタデータ) (2022-10-18T00:34:09Z) - 6th Place Solution to Google Universal Image Embedding [0.0]
本稿では,Kaggle上でのGoogle Universal Image Embeddingコンペティションの6位となるソリューションを提案する。
私たちのアプローチは、自然言語の監視から視覚表現を学ぶために使用される強力な事前学習モデルであるCLIPアーキテクチャに基づいている。
論文 参考訳(メタデータ) (2022-10-17T19:19:46Z) - 1st Place Solution in Google Universal Images Embedding [0.0]
本稿では,Google Universal Images Embedding Competition on Kaggleにおいて,第1位となるソリューションを提案する。
ソリューションの強調された部分は、1)トレーニングと微調整を行う新しい方法、2)埋め込みを行うモデルのプールにより良いアンサンブルのアイデア、3)高解像度と重なり合うパッチに対する微調整の潜在的なトレードオフに基づいています。
論文 参考訳(メタデータ) (2022-10-16T07:46:23Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - 3rd Place Solution to Google Landmark Recognition Competition 2021 [17.59843220514826]
Google Landmark Recognition 2021コンペティションのソリューションを紹介します。
アンサンブルされたモデルは、民間のリーダーボードで0.489点を獲得し、2021年のGoogleランドマーク認識コンペティションで3位となった。
論文 参考訳(メタデータ) (2021-10-06T14:17:54Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Scene Graph to Image Generation with Contextualized Object Layout
Refinement [92.85331019618332]
シーングラフから画像を生成する新しい手法を提案する。
提案手法では,レイアウトのカバレッジを約20ポイント向上し,オブジェクトの重複量を無視できる量に削減する。
論文 参考訳(メタデータ) (2020-09-23T06:27:54Z) - 1st Place Solution to Google Landmark Retrieval 2020 [0.0]
本稿は、Kaggleに関するGoogle Landmark Retrieval 2020コンペティションの第1位となるソリューションを提示する。
このソリューションは、多数のランドマーククラスを分類するためのメトリックラーニングに基づいており、2つのトレインデータセットによるトランスファーラーニングを使用している。
論文 参考訳(メタデータ) (2020-08-24T05:45:20Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。