論文の概要: General Image Descriptors for Open World Image Retrieval using ViT CLIP
- arxiv url: http://arxiv.org/abs/2210.11141v1
- Date: Thu, 20 Oct 2022 10:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:38:21.159966
- Title: General Image Descriptors for Open World Image Retrieval using ViT CLIP
- Title(参考訳): ViT CLIPを用いたオープンワールド画像検索のための汎用画像記述子
- Authors: Marcos V. Conde, Ivan Aerlic, Simon J\'egou
- Abstract要約: Google Universal Image Embedding (GUIE) Challengeは、マルチドメイン画像表現における最初の競争の1つである。
これは画像検索、検索エンジン、電子商取引において顕著な応用を持つ基本的なコンピュータビジョン問題である。
ここでは、GUIE Challengeの4位、CLIPを用いて事前学習したゼロショットビジョントランスフォーマー(ViT)の「トリックのバグ」について説明する。
- 参考スコア(独自算出の注目度): 3.222802562733787
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Google Universal Image Embedding (GUIE) Challenge is one of the first
competitions in multi-domain image representations in the wild, covering a wide
distribution of objects: landmarks, artwork, food, etc. This is a fundamental
computer vision problem with notable applications in image retrieval, search
engines and e-commerce. In this work, we explain our 4th place solution to the
GUIE Challenge, and our "bag of tricks" to fine-tune zero-shot Vision
Transformers (ViT) pre-trained using CLIP.
- Abstract(参考訳): Google Universal Image Embedding (GUIE) Challengeは、ランドマーク、アートワーク、食べ物など、幅広いオブジェクトをカバーする、野生のマルチドメインイメージ表現における最初の競争の1つである。
これは画像検索、検索エンジン、電子商取引において顕著な応用を持つ基本的なコンピュータビジョン問題である。
本稿では、GUIE Challengeの4位となるソリューションと、CLIPを用いて事前トレーニングされたゼロショットビジョントランスフォーマー(ViT)の「トリックのバグ」について説明する。
関連論文リスト
- 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - GPAvatar: Generalizable and Precise Head Avatar from Image(s) [71.555405205039]
GPAvatarは、1つの前方パスで1つまたは複数の画像から3Dヘッドアバターを再構築するフレームワークである。
提案手法は,忠実なアイデンティティ再構築,正確な表現制御,多視点一貫性を実現する。
論文 参考訳(メタデータ) (2024-01-18T18:56:34Z) - C-SAW: Self-Supervised Prompt Learning for Image Generalization in
Remote Sensing [12.930814370829893]
本稿では,大規模事前学習型視覚言語モデル(VLM)であるCLIPを用いて,光学リモートセンシング画像の解析における領域およびクラス一般化問題に焦点をあてる。
既存のプロンプト学習技術は、ドメイン情報とコンテンツ情報をプロンプトに組み込むことの重要性を見落としている。
本稿では,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を保証するソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-27T13:35:20Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - Real-Time Under-Display Cameras Image Restoration and HDR on Mobile
Devices [81.61356052916855]
アンダーディスプレイカメラ(UDC)によって撮影された画像は、その前のスクリーンによって劣化する。
画像復元のためのディープラーニング手法は、キャプチャ画像の劣化を著しく低減することができる。
我々は,視覚的UDC画像復元とHDRのための軽量なモデルを提案し,スマートフォン上での様々な手法の性能と実行状況を比較したベンチマークを提供する。
論文 参考訳(メタデータ) (2022-11-25T11:46:57Z) - A Comprehensive Survey of Transformers for Computer Vision [3.1761172592339375]
ビジョントランス (ViT) は様々なコンピュータビジョンアプリケーション (CV) に使用される。
今回の調査は、VTs for CVsに関する私たちの知る限りでは初めてのものだ。
CVアプリケーションには、画像分類、オブジェクト検出、画像セグメンテーション、画像圧縮、画像超解像、画像デノイング、異常検出などがある。
論文 参考訳(メタデータ) (2022-11-11T05:11:03Z) - Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and
Restoration [71.6879432974126]
本稿では,画像超解像のためのSwinIRの改良を目的とした小説Swin Transformer V2について検討する。
JPEG圧縮アーティファクトの除去,画像超解像(古典的および軽量),圧縮画像超解像の3つの代表的な課題について実験を行った。
実験の結果,Swin2SRはSwinIRのトレーニング収束と性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-09-22T23:25:08Z) - Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer [22.75024085059826]
Jigsaw-ViTは、画像分類のための視覚変換器(ViT)の自己監督的な補助的損失である。
Jigsaw-ViTは、標準のViTよりも一般化と堅牢性の両方を改善できることを示す。
論文 参考訳(メタデータ) (2022-07-25T08:18:18Z) - 3rd Place: A Global and Local Dual Retrieval Solution to Facebook AI
Image Similarity Challenge [2.4340897078287815]
本稿では、Facebook AIによって組織された画像類似度チャレンジ(ISC)2021のマッチングトラックに対する3番目のソリューションを提案する。
本稿では,グローバルな記述子とローカルな記述子を組み合わせたマルチブランチ検索手法を提案する。
本稿では,グローバルな特徴と局所的な特徴の相補的な優位性を示すアブレーション実験について述べる。
論文 参考訳(メタデータ) (2021-12-04T16:25:24Z) - Tensor-to-Image: Image-to-Image Translation with Vision Transformers [0.0]
本稿では,視覚変換器を用いたカスタムデザインモデルであるテンソル・ツー・イメージを用いて画像変換を行う。
自己注意の助けを借りて、我々のモデルは1つの修正なしに様々な問題に一般化および適用することができた。
論文 参考訳(メタデータ) (2021-10-06T17:57:45Z) - Supervised and Unsupervised Learning of Parameterized Color Enhancement [112.88623543850224]
我々は、教師なし学習と教師なし学習の両方を用いて、画像翻訳タスクとしての色強調の問題に取り組む。
我々は,MIT-Adobe FiveKベンチマークにおいて,教師付き(ペアデータ)と教師なし(ペアデータ)の2つの画像強調手法と比較して,最先端の結果が得られた。
20世紀初頭の写真や暗黒ビデオフレームに応用することで,本手法の一般化能力を示す。
論文 参考訳(メタデータ) (2019-12-30T13:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。