論文の概要: 2nd Place Solution to Facebook AI Image Similarity Challenge Matching
Track
- arxiv url: http://arxiv.org/abs/2111.09113v1
- Date: Mon, 15 Nov 2021 11:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 03:47:23.363172
- Title: 2nd Place Solution to Facebook AI Image Similarity Challenge Matching
Track
- Title(参考訳): facebookのai画像類似性チャレンジマッチングトラックの2位
- Authors: SeungKee Jeon
- Abstract要約: 本稿では,Facebook AI Image similarity Challenge : Matching Track on DrivenDataの2番目のソリューションを提案する。
自己教師型学習とビジョントランスフォーマー(ViT)による解法
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the 2nd place solution to the Facebook AI Image
Similarity Challenge : Matching Track on DrivenData. The solution is based on
self-supervised learning, and Vision Transformer(ViT). The main breaktrough
comes from concatenating query and reference image to form as one image and
asking ViT to directly predict from the image if query image used reference
image. The solution scored 0.8291 Micro-average Precision on the private
leaderboard.
- Abstract(参考訳): 本稿では,Facebook AI Image similarity Challenge : Matching Track on DrivenDataの2番目のソリューションを提案する。
このソリューションは、自己教師型学習とビジョントランスフォーマー(ViT)に基づいている。
主なブレークトラフは、クエリと参照イメージを1つのイメージとして結合し、クエリイメージが参照イメージを使用した場合、ViTに画像から直接予測するように要求することによる。
ソリューションは、個人的なリーダーボード上で0.08291マイクロ平均精度を記録した。
関連論文リスト
- ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Automatic Creative Selection with Cross-Modal Matching [0.4215938932388723]
本稿では,事前学習したLXMERTモデルに基づいて,検索語にAppイメージをマッチングする手法を提案する。
提案手法は,あるアプリケーションに対する広告主関連(画像,検索語)ペアと,(画像,検索語)ペア間の関連性に関する人間評価の2つを用いて評価する。
論文 参考訳(メタデータ) (2024-02-28T22:05:38Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - 3rd Place: A Global and Local Dual Retrieval Solution to Facebook AI
Image Similarity Challenge [2.4340897078287815]
本稿では、Facebook AIによって組織された画像類似度チャレンジ(ISC)2021のマッチングトラックに対する3番目のソリューションを提案する。
本稿では,グローバルな記述子とローカルな記述子を組み合わせたマルチブランチ検索手法を提案する。
本稿では,グローバルな特徴と局所的な特徴の相補的な優位性を示すアブレーション実験について述べる。
論文 参考訳(メタデータ) (2021-12-04T16:25:24Z) - Bag of Tricks and A Strong baseline for Image Copy Detection [36.473577708618976]
画像コピー検出には,トリックの袋と強力なベースラインが提案されている。
我々は、異なるクエリのスコアを安定させるために、記述子ストレッチ戦略を設計する。
提案されたベースラインは、Facebook AI Image similarity Challenge: Descriptor Trackの参加者526人中3位である。
論文 参考訳(メタデータ) (2021-11-13T13:58:43Z) - D^2LV: A Data-Driven and Local-Verification Approach for Image Copy
Detection [36.473577708618976]
画像類似性チャレンジ:マッチングトラック - NeurIPS'21で競合する、データ駆動で局所的な検証手法が提案されている。
D2LVでは、教師なし事前訓練が一般的に使用される教師付き訓練に取って代わる。
提案されたアプローチは、Facebook AI Image similarity Challenge: Matching Trackで1,103人中1位にランクインしている。
論文 参考訳(メタデータ) (2021-11-13T10:56:58Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - The 2021 Image Similarity Dataset and Challenge [32.202821997745716]
本稿では,大規模画像類似度検出のための新しいベンチマークを提案する。
目標は、クエリイメージが、サイズ100万の参照コーパス内の任意のイメージの修正コピーであるかどうかを決定することである。
論文 参考訳(メタデータ) (2021-06-17T17:23:59Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - SSCR: Iterative Language-Based Image Editing via Self-Supervised
Counterfactual Reasoning [79.30956389694184]
反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復的な命令に従う。
データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。
本稿では,データ不足を克服する対実的思考を取り入れたセルフスーパービジョンの対実的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-21T01:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。