論文の概要: ELViS: Efficient Visual Similarity from Local Descriptors that Generalizes Across Domains
- arxiv url: http://arxiv.org/abs/2603.28603v1
- Date: Mon, 30 Mar 2026 15:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.496026
- Title: ELViS: Efficient Visual Similarity from Local Descriptors that Generalizes Across Domains
- Title(参考訳): ELViS: ドメイン間を一般化するローカル記述子からの効率的な視覚的類似性
- Authors: Pavel Suma, Giorgos Kordopatis-Zilos, Yannis Kalantidis, Giorgos Tolias,
- Abstract要約: 本稿では,画像と画像の類似性モデルであるELViSを紹介する。
従来の手法とは異なり、我々のモデルは表現空間ではなく類似性空間で機能する。
この設計は強い帰納バイアスを注入し、単純で効率的で解釈可能なモデルをもたらす。
- 参考スコア(独自算出の注目度): 22.81556671429117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale instance-level training data is scarce, so models are typically trained on domain-specific datasets. Yet in real-world retrieval, they must handle diverse domains, making generalization to unseen data critical. We introduce ELViS, an image-to-image similarity model that generalizes effectively to unseen domains. Unlike conventional approaches, our model operates in similarity space rather than representation space, promoting cross-domain transfer. It leverages local descriptor correspondences, refines their similarities through an optimal transport step with data-dependent gains that suppress uninformative descriptors, and aggregates strong correspondences via a voting process into an image-level similarity. This design injects strong inductive biases, yielding a simple, efficient, and interpretable model. To assess generalization, we compile a benchmark of eight datasets spanning landmarks, artworks, products, and multi-domain collections, and evaluate ELViS as a re-ranking method. Our experiments show that ELViS outperforms competing methods by a large margin in out-of-domain scenarios and on average, while requiring only a fraction of their computational cost. Code available at: https://github.com/pavelsuma/ELViS/
- Abstract(参考訳): 大規模なインスタンスレベルのトレーニングデータは少ないため、モデルは通常、ドメイン固有のデータセットに基づいてトレーニングされる。
しかし、現実世界の検索では、さまざまな領域を扱わなければならない。
本稿では,画像と画像の類似性モデルであるELViSを紹介する。
従来の手法とは異なり、我々のモデルは表現空間ではなく類似性空間で動作し、クロスドメイン転送を促進する。
ローカルな記述子対応を活用し、非形式的記述子を抑制するデータ依存ゲインを持つ最適な転送ステップを通じてそれらの類似性を洗練し、投票プロセスを通じて強い対応を画像レベルの類似性に集約する。
この設計は強い帰納バイアスを注入し、単純で効率的で解釈可能なモデルをもたらす。
一般化を評価するため,ランドマーク,アートワーク,製品,多領域コレクションにまたがる8つのデータセットのベンチマークをコンパイルし,ELViSを再評価する手法として評価する。
実験の結果,ELViSは,計算コストのごく一部を必要としながら,ドメイン外のシナリオや平均値において競合する手法よりも優れていた。
https://github.com/pavelsuma/ELViS/
関連論文リスト
- Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning [64.30639042094548]
単一プロセスを通じて統合ドメインモデルをトレーニングするための新しい設定を提案する。
最初にPose-in-Context(PiC)を紹介した。これはコンテキスト内学習を活用して、ポーズ中心のクロスドメインモデルを作成する。
そこで我々は、モーダル性、タスク、データセットの一般化を拡大するPiCの拡張であるHuman-in-Context(HiC)を提案する。
論文 参考訳(メタデータ) (2025-08-14T17:59:23Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - TFS-ViT: Token-Level Feature Stylization for Domain Generalization [17.82872117103924]
視覚変換器(ViT)は、幅広いコンピュータビジョンタスクにおいて優れた性能を示している。
本稿では,ドメイン一般化のためのToken-level Feature Stylization (TFS-ViT) アプローチを提案する。
提案手法は,異なる領域の画像の正規化統計を混合することによりトークンの特徴を変換する。
論文 参考訳(メタデータ) (2023-03-28T03:00:28Z) - Semi-supervised Meta-learning with Disentanglement for
Domain-generalised Medical Image Segmentation [15.351113774542839]
新たなセンター(ここではドメイン)からの新しいデータにモデルを一般化することは、依然として課題である。
本稿では,絡み合いを伴う半教師付きメタラーニングフレームワークを提案する。
提案手法は,異なるセグメンテーションタスクに対して頑健であり,2つの公開ベンチマーク上での最先端の一般化性能を実現する。
論文 参考訳(メタデータ) (2021-06-24T19:50:07Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - A Universal Representation Transformer Layer for Few-Shot Image
Classification [43.31379752656756]
少ないショット分類は、少数のサンプルで示される場合、目に見えないクラスを認識することを目的としている。
本稿では,多様なデータソースから未確認のクラスやサンプルを抽出するマルチドメイン・少数ショット画像分類の問題点について考察する。
そこで本研究では,メタ学習者がユニバーサルな特徴を活用できるユニバーサル表現変換器層を提案する。
論文 参考訳(メタデータ) (2020-06-21T03:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。