論文の概要: LOCORE: Image Re-ranking with Long-Context Sequence Modeling
- arxiv url: http://arxiv.org/abs/2503.21772v1
- Date: Thu, 27 Mar 2025 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:15.422128
- Title: LOCORE: Image Re-ranking with Long-Context Sequence Modeling
- Title(参考訳): LOCORE:Long-Context Sequence Modelingを用いた画像再構成
- Authors: Zilin Xiao, Pavel Suma, Ayush Sachdeva, Hao-Jen Wang, Giorgos Kordopatis-Zilos, Giorgos Tolias, Vicente Ordonez,
- Abstract要約: LOCORE, Long-Context Re-ranker は画像クエリとギャラリーイメージの一覧に対応するローカル記述子として入力されるモデルである。
LOCOREは、ローカルディスクリプタでリストワイズを再ランク付けする最初の方法である。
提案手法は,既存の画像検索ベンチマークにおいて,他のリランカと比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 15.03095619785867
- License:
- Abstract: We introduce LOCORE, Long-Context Re-ranker, a model that takes as input local descriptors corresponding to an image query and a list of gallery images and outputs similarity scores between the query and each gallery image. This model is used for image retrieval, where typically a first ranking is performed with an efficient similarity measure, and then a shortlist of top-ranked images is re-ranked based on a more fine-grained similarity measure. Compared to existing methods that perform pair-wise similarity estimation with local descriptors or list-wise re-ranking with global descriptors, LOCORE is the first method to perform list-wise re-ranking with local descriptors. To achieve this, we leverage efficient long-context sequence models to effectively capture the dependencies between query and gallery images at the local-descriptor level. During testing, we process long shortlists with a sliding window strategy that is tailored to overcome the context size limitations of sequence models. Our approach achieves superior performance compared with other re-rankers on established image retrieval benchmarks of landmarks (ROxf and RPar), products (SOP), fashion items (In-Shop), and bird species (CUB-200) while having comparable latency to the pair-wise local descriptor re-rankers.
- Abstract(参考訳): LOCORE, Long-Context Re-ranker は画像クエリとギャラリーイメージのリストに対応するローカル記述子として入力され、クエリとギャラリーイメージ間の類似度スコアを出力するモデルである。
このモデルは画像検索に使用され、通常、第1ランクは効率的な類似度尺度で実行され、その後、よりきめ細かい類似度尺度に基づいて上位画像のショートリストが再ランクされる。
ローカルディスクリプタとのペアワイド類似度推定やグローバルディスクリプタとのリストワイド再ランク付けを行う既存の方法と比較して、LOCOREはローカルディスクリプタとリストワイド再ランク付けを行う最初の方法である。
これを実現するために、効率的な長文シーケンスモデルを用いて、クエリとギャラリーイメージ間の依存関係をローカルディスクリプタレベルで効果的にキャプチャする。
テスト中、シーケンスモデルのコンテキストサイズ制限を克服するために、スライディングウィンドウ戦略で長いショートリストを処理します。
提案手法は,ランドマーク (ROxf, RPar), 製品 (SOP), ファッションアイテム (In-Shop), 鳥種 (CUB-200) のイメージ検索ベンチマークにおいて, 局所記述子再ランカに匹敵するレイテンシを保ちながら, 他の再ランカよりも優れた性能を実現する。
関連論文リスト
- SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs [81.2396059480232]
SceneGraphLocはシーングラフ内の各ノード(つまりオブジェクトインスタンスを表す)に対する固定サイズの埋め込みを学習する。
画像を利用する場合、SceneGraphLocは、大規模な画像データベースに依存する最先端技術に近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-30T20:25:16Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Integrating Visual and Semantic Similarity Using Hierarchies for Image
Retrieval [0.46040036610482665]
視覚的階層構造を用いて視覚的および意味的類似性の両方をキャプチャするCBIRの手法を提案する。
階層構造は、分類のために訓練されたディープニューラルネットワークの潜在空間に重複する特徴を持つクラスをマージすることによって構築される。
本手法は,既存の画像検索手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-16T15:23:14Z) - ASIC: Aligning Sparse in-the-wild Image Collections [86.66498558225625]
本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
論文 参考訳(メタデータ) (2023-03-28T17:59:28Z) - Reuse your features: unifying retrieval and feature-metric alignment [3.845387441054033]
DRANは視覚的ローカライゼーションの3段階の機能を生成できる最初のネットワークである。
公開ベンチマークの挑戦的な条件下では、堅牢性と正確性の観点から競争性能を達成する。
論文 参考訳(メタデータ) (2022-04-13T10:42:00Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Instance-level Image Retrieval using Reranking Transformers [18.304597755595697]
インスタンスレベルの画像検索は、クエリイメージ内のオブジェクトに一致する画像の大規模なデータベースで検索するタスクです。
RRT(Reranking Transformers)を一般的なモデルとして提案し、ローカル機能とグローバル機能の両方を組み込んでマッチングイメージをランク付けします。
RRTは軽量であり、一組のトップマッチング結果の再ランク付けを単一のフォワードパスで行えるように容易に並列化できる。
論文 参考訳(メタデータ) (2021-03-22T23:58:38Z) - SeqNet: Learning Descriptors for Sequence-based Hierarchical Place
Recognition [31.714928102950594]
本稿では,高性能初期一致仮説生成器を生成する新しいハイブリッドシステムを提案する。
シーケンス記述子はseqnetと呼ばれる時間畳み込みネットワークを使って生成される。
次に、ショートリスト付き単一画像学習記述子を用いて選択的な逐次スコアアグリゲーションを行い、全体の位置一致仮説を生成する。
論文 参考訳(メタデータ) (2021-02-23T10:32:10Z) - Compact Deep Aggregation for Set Retrieval [87.52470995031997]
画像の大規模データセットから複数の顔を含む画像を取得することに焦点を当てる。
ここでは、セットは各画像の顔記述子で構成され、複数のIDに対するクエリが与えられた後、すべてのIDを含む画像を取得することが目標である。
このコンパクトディスクリプタは,画像毎に最大2面まで識別性の低下が最小限に抑えられ,その後徐々に劣化することを示す。
論文 参考訳(メタデータ) (2020-03-26T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。