論文の概要: Google Landmark Retrieval 2021 Competition Third Place Solution
- arxiv url: http://arxiv.org/abs/2110.04619v1
- Date: Sat, 9 Oct 2021 17:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:31:48.692797
- Title: Google Landmark Retrieval 2021 Competition Third Place Solution
- Title(参考訳): Google Landmark Retrieval 2021 コンペティション3位
- Authors: Qishen Ha, Bo Liu, Hongwei Zhang
- Abstract要約: 我々は、検索と認識トラックの両方に対して、Google Landmark Challenges 2021にソリューションを提示する。
どちらのソリューションも、動的マージンを持つSub-center ArcFaceに基づくトランスフォーマーとConvNetモデルのアンサンブルである。
- 参考スコア(独自算出の注目度): 5.2576738414324335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our solutions to the Google Landmark Challenges 2021, for both the
retrieval and the recognition tracks. Both solutions are ensembles of
transformers and ConvNet models based on Sub-center ArcFace with dynamic
margins. Since the two tracks share the same training data, we used the same
pipeline and training approach, but with different model selections for the
ensemble and different post-processing. The key improvement over last year is
newer state-of-the-art vision architectures, especially transformers which
significantly outperform ConvNets for the retrieval task. We finished third and
fourth places for the retrieval and recognition tracks respectively.
- Abstract(参考訳): 我々は、検索と認識トラックの両方に対して、Google Landmark Challenges 2021にソリューションを提示する。
どちらのソリューションも、動的マージンを持つSub-center ArcFaceに基づくトランスフォーマーとConvNetモデルのアンサンブルである。
2つのトラックは同じトレーニングデータを共有しているので、同じパイプラインとトレーニングアプローチを使っていますが、アンサンブルと後処理のモデル選択は違います。
昨年の主な改善点は、最新の最先端のビジョンアーキテクチャ、特に検索タスクにおいてConvNetを著しく上回るトランスフォーマーである。
検索トラックと認識トラックはそれぞれ3位と4位に終わった。
関連論文リスト
- Point Transformer V3 Extreme: 1st Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation [98.11452697097539]
この技術的レポートでは、2024年のオープンデータセットチャレンジのセマンティックセグメンテーショントラックの第一位ソリューションについて詳述する。
我々は,最先端のプラグアンドプレイトレーニングと推論技術を実装することで,ベンチマーク上でのポイントトランスフォーマーV3の性能を大幅に向上させた。
このアプローチによって、Openデータセットセグメンテーションのリーダボードのトップポジションが確保され、他のエントリよりも大幅に向上しました。
論文 参考訳(メタデータ) (2024-07-21T22:08:52Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - 2nd Place Solution to Google Landmark Retrieval 2020 [15.620571007364362]
本稿では,Google Landmark Retrieval Competition 2020における第2位のソリューションについて述べる。
後処理を伴わないランドマーク検索のためのグローバル特徴モデルのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-11T10:14:14Z) - 3rd Place Solution to Google Landmark Recognition Competition 2021 [17.59843220514826]
Google Landmark Recognition 2021コンペティションのソリューションを紹介します。
アンサンブルされたモデルは、民間のリーダーボードで0.489点を獲得し、2021年のGoogleランドマーク認識コンペティションで3位となった。
論文 参考訳(メタデータ) (2021-10-06T14:17:54Z) - 2nd Place Solution to Google Landmark Recognition Competition 2021 [0.0]
そこで我々は,Kaggleで開かれたGoogle Landmark Recognition 2021 Challengeに,その解決策を提示する。
Swin, CSWin, EfficientNet B7 モデルの完全なパイプラインは、プライベートなリーダーボードで 0.4907 を獲得し、コンペで2位になるのに役立ちます。
論文 参考訳(メタデータ) (2021-10-06T10:28:38Z) - An Empirical Study of Vehicle Re-Identification on the AI City Challenge [19.13038665501964]
Track2は、現実世界のデータと合成データの両方を扱う車両再識別(ReID)タスクである。
主に、この課題におけるトレーニングデータ、教師なしドメイン適応(UDA)トレーニング、後処理、モデルアンサンブルの4点に注目します。
以上の手法により, 最終的に0.7445mAPのスコアが得られた。
論文 参考訳(メタデータ) (2021-05-20T12:20:52Z) - TransCenter: Transformers with Dense Queries for Multiple-Object
Tracking [87.75122600164167]
私たちは、標準表現(バウンディングボックス)は、マルチオブジェクトトラッキングのためのトランスフォーマー学習に適応していないと主張している。
複数のターゲットの中心を追跡するトランスフォーマーベースのアーキテクチャであるTransCenterを提案する。
論文 参考訳(メタデータ) (2021-03-28T14:49:36Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-19T09:16:39Z) - 3rd Place Solution to "Google Landmark Retrieval 2020" [11.78419680436906]
本稿では,Google Landmark Retrieval 2020チャレンジに対する3位の詳細ソリューションについて紹介する。
メカニカルラーニングを用いたデータクリーニングとモデルの探索に重点を置いている。
我々はCorner-Cutmixと呼ばれるデータ拡張手法を採用し、モデルがマルチスケールで隠蔽されたランドマーク画像を認識する能力を向上する。
論文 参考訳(メタデータ) (2020-08-24T14:39:51Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。