論文の概要: Investigating the Vision Transformer Model for Image Retrieval Tasks
- arxiv url: http://arxiv.org/abs/2101.03771v1
- Date: Mon, 11 Jan 2021 08:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 20:16:24.453544
- Title: Investigating the Vision Transformer Model for Image Retrieval Tasks
- Title(参考訳): 画像検索タスクのための視覚トランスフォーマーモデルの検討
- Authors: Socratis Gkelios, Yiannis Boutalis, Savvas A. Chatzichristofis
- Abstract要約: 本稿では,事前に準備することなく画像検索タスクに効果的に適用できるプラグイン・アンド・プレイディスクリプタを提案する。
提案手法は,パラメータ調整のためのトレーニングデータを必要としないが,最近提案されたビジョントランスフォーマネットワークを利用する。
画像検索タスクにおいて、グローバルデリプタとローカルデリプタの使用は、過去数年間にわたって、畳み込みニューラルネットワーク(cnn)ベースの手法によって非常にうまく置き換えられてきた。
- 参考スコア(独自算出の注目度): 1.375062426766416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a plug-and-play descriptor that can be effectively
adopted for image retrieval tasks without prior initialization or preparation.
The description method utilizes the recently proposed Vision Transformer
network while it does not require any training data to adjust parameters. In
image retrieval tasks, the use of Handcrafted global and local descriptors has
been very successfully replaced, over the last years, by the Convolutional
Neural Networks (CNN)-based methods. However, the experimental evaluation
conducted in this paper on several benchmarking datasets against 36
state-of-the-art descriptors from the literature demonstrates that a neural
network that contains no convolutional layer, such as Vision Transformer, can
shape a global descriptor and achieve competitive results. As fine-tuning is
not required, the presented methodology's low complexity encourages adoption of
the architecture as an image retrieval baseline model, replacing the
traditional and well adopted CNN-based approaches and inaugurating a new era in
image retrieval approaches.
- Abstract(参考訳): 本稿では,先行初期化や準備をすることなく,画像検索タスクに効果的に適用できるプラグイン・アンド・プレイディスクリプタを提案する。
提案手法は,パラメータ調整のためのトレーニングデータを必要としないが,最近提案されたビジョントランスフォーマネットワークを利用する。
画像検索タスクにおいて、手作りのグローバルデリプタとローカルデリプタの使用は、近年、畳み込みニューラルネットワーク(cnn)ベースの手法によって、非常にうまく置き換えられてきた。
しかし,本論文では,36の最先端記述子に対するベンチマークデータセットについて,Vision Transformerなどの畳み込み層を持たないニューラルネットワークがグローバル記述子を形成でき,競争的な結果が得られることを示した。
微調整は不要であるため、提案手法の低複雑性は、画像検索ベースラインモデルとしてアーキテクチャの採用を促進し、従来のCNNベースのアプローチを置き換えるとともに、画像検索アプローチの新しい時代を開拓する。
関連論文リスト
- T-TAME: Trainable Attention Mechanism for Explaining Convolutional
Networks and Vision Transformers [9.284740716447342]
ニューラルネットワークの"ブラックボックス"の性質は、説明責任が不可欠であるアプリケーションにおいて、採用の障壁となる。
本稿では,T-TAME(Transformer- compatible Trainable Attention Mechanism for Explanations)を提案する。
提案されたアーキテクチャとトレーニング技術は、どんな畳み込みやビジョントランスフォーマーのようなニューラルネットワークにも容易に適用できる。
論文 参考訳(メタデータ) (2024-03-07T14:25:03Z) - Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Robustcaps: a transformation-robust capsule network for image
classification [6.445605125467574]
本稿では, 変換ロバスト性の望ましい特性を示すディープニューラルネットワークモデルを提案する。
我々のモデルはRobostCapsと呼ばれ、改良されたカプセルネットワークモデルでグループ同変畳み込みを使用する。
CIFAR-10、FashionMNIST、CIFAR-100データセットの最先端の精度を実現している。
論文 参考訳(メタデータ) (2022-10-20T08:42:33Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - GLiT: Neural Architecture Search for Global and Local Image Transformer [114.8051035856023]
画像認識のためのトランスフォーマーアーキテクチャを改良するために,最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
画像分類では,ResNetファミリーやベースラインのViTよりも,より差別的で効率的なトランスフォーマー変種を見つけることができる。
論文 参考訳(メタデータ) (2021-07-07T00:48:09Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Image Retrieval using Multi-scale CNN Features Pooling [26.811290793232313]
本稿では,NetVLADに基づく新しいマルチスケールローカルプールと,サンプルの難易度に基づくトリプルトマイニング手法を利用して,効率的な画像表現を実現するエンド・ツー・エンドのトレーニング可能なネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-21T00:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。