論文の概要: Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking
- arxiv url: http://arxiv.org/abs/2110.13430v1
- Date: Tue, 26 Oct 2021 06:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 14:57:13.437848
- Title: Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking
- Title(参考訳): 視覚的再分類のための自己注意を伴う文脈的類似性集約
- Authors: Jianbo Ouyang, Hui Wu, Min Wang, Wengang Zhou, Houqiang Li
- Abstract要約: 本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
- 参考スコア(独自算出の注目度): 96.55393026011811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In content-based image retrieval, the first-round retrieval result by simple
visual feature comparison may be unsatisfactory, which can be refined by visual
re-ranking techniques. In image retrieval, it is observed that the contextual
similarity among the top-ranked images is an important clue to distinguish the
semantic relevance. Inspired by this observation, in this paper, we propose a
visual re-ranking method by contextual similarity aggregation with
self-attention. In our approach, for each image in the top-K ranking list, we
represent it into an affinity feature vector by comparing it with a set of
anchor images. Then, the affinity features of the top-K images are refined by
aggregating the contextual information with a transformer encoder. Finally, the
affinity features are used to recalculate the similarity scores between the
query and the top-K images for re-ranking of the latter. To further improve the
robustness of our re-ranking model and enhance the performance of our method, a
new data augmentation scheme is designed. Since our re-ranking model is not
directly involved with the visual feature used in the initial retrieval, it is
ready to be applied to retrieval result lists obtained from various retrieval
algorithms. We conduct comprehensive experiments on four benchmark datasets to
demonstrate the generality and effectiveness of our proposed visual re-ranking
method.
- Abstract(参考訳): コンテンツに基づく画像検索では、単純な視覚的特徴比較による第1ラウンドの検索結果に満足できない場合がある。
画像検索において,トップランク画像間の文脈的類似性は,意味的関連性を識別するための重要な手がかりとなる。
本稿では,この観察に触発されて,文脈的類似性集約と自己注意による視覚的再評価手法を提案する。
我々のアプローチでは、トップkランキングリストの各画像に対して、アンカー画像の集合と比較することにより、アフィニティ特徴ベクトルとして表現する。
そして、コンテクスト情報を変換器エンコーダで集約することにより、トップK画像の親和性特性を洗練する。
最後に、親和性機能はクエリとトップKイメージの類似点を再計算し、後者を再ランク付けするために使用される。
再ランクモデルの堅牢性をさらに向上し,提案手法の性能を向上させるため,新しいデータ拡張方式を設計した。
我々の再ランク付けモデルは初期検索で使用される視覚的特徴に直接関係しないので、様々な検索アルゴリズムから得られた検索結果リストに適用できる。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
関連論文リスト
- Texture image retrieval using a classification and contourlet-based
features [0.10241134756773226]
本稿では,テクスチャ画像に対するCBIR(Content Based Image Retrieval)を改善するための新しいフレームワークを提案する。
RCT-Plus変換に基づく新しい画像表現を用いることで実現した。
我々は,従来のCBIR方式と比較して,検索率を大幅に改善した。
論文 参考訳(メタデータ) (2024-03-10T00:07:47Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Integrating Visual and Semantic Similarity Using Hierarchies for Image
Retrieval [0.46040036610482665]
視覚的階層構造を用いて視覚的および意味的類似性の両方をキャプチャするCBIRの手法を提案する。
階層構造は、分類のために訓練されたディープニューラルネットワークの潜在空間に重複する特徴を持つクラスをマージすることによって構築される。
本手法は,既存の画像検索手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-16T15:23:14Z) - Graph Convolution Based Efficient Re-Ranking for Visual Retrieval [29.804582207550478]
特徴を更新することで、初期検索結果を洗練する効率的な再ランク付け手法を提案する。
具体的には、グラフ畳み込みネットワーク(GCN)に基づく再ランク付けを再構成し、特徴伝搬による視覚的検索タスクのための新しいグラフ畳み込みベース再ランク付け(GCR)を提案する。
特に、平面GCRは、クロスカメラ検索のために拡張され、異なるカメラ間の親和性関係を活用するために、改良された特徴伝搬定式化が提示される。
論文 参考訳(メタデータ) (2023-06-15T00:28:08Z) - Summarize and Search: Learning Consensus-aware Dynamic Convolution for
Co-Saliency Detection [139.10628924049476]
人間は、まず、グループ全体のコンセンサス知識を要約し、その後、各画像内の対応するオブジェクトを検索することで、共相検出を行う。
以前の方法は、通常、最初のプロセスで堅牢性、スケーラビリティ、安定性を欠き、第2のプロセスでイメージ機能とコンセンサス機能を融合させる。
本稿では,新たなコンセンサスを考慮した動的畳み込みモデルを提案する。
論文 参考訳(メタデータ) (2021-10-01T12:06:42Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Scene Graph Embeddings Using Relative Similarity Supervision [4.137464623395376]
グラフ畳み込みネットワークを用いて,シーングラフの構造を活用し,意味的画像検索に有用な画像埋め込みを生成する。
本稿では,類似画像と類似画像の対で動作し,それらの間の相対順序を埋め込み空間に課す新しい損失関数を提案する。
このランキング損失と直感的なトリプルサンプリング戦略が、検索タスクでよく知られたコントラスト損失を上回った堅牢な表現につながることを実証します。
論文 参考訳(メタデータ) (2021-04-06T09:13:05Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。