Fugu-MT 論文翻訳(概要): Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval

論文の概要: Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval

arxiv url: http://arxiv.org/abs/2410.07022v1
Date: Wed, 09 Oct 2024 16:05:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 18:41:30.536931
Title: Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval
Title（参考訳）: スケーラブルで効率的な画像検索のための分散制約の発散
Authors: Mohammad Omama, Po-han Li, Sandeep P. Chinchali,
Abstract要約: 最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
参考スコア（独自算出の注目度）: 1.6874375111244329
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image retrieval is crucial in robotics and computer vision, with downstream applications in robot place recognition and vision-based product recommendations. Modern retrieval systems face two key challenges: scalability and efficiency. State-of-the-art image retrieval systems train specific neural networks for each dataset, an approach that lacks scalability. Furthermore, since retrieval speed is directly proportional to embedding size, existing systems that use large embeddings lack efficiency. To tackle scalability, recent works propose using off-the-shelf foundation models. However, these models, though applicable across datasets, fall short in achieving performance comparable to that of dataset-specific models. Our key observation is that, while foundation models capture necessary subtleties for effective retrieval, the underlying distribution of their embedding space can negatively impact cosine similarity searches. We introduce Autoencoders with Strong Variance Constraints (AE-SVC), which, when used for projection, significantly improves the performance of foundation models. We provide an in-depth theoretical analysis of AE-SVC. Addressing efficiency, we introduce Single-shot Similarity Space Distillation ((SS)$_2$D), a novel approach to learn embeddings with adaptive sizes that offers a better trade-off between size and performance. We conducted extensive experiments on four retrieval datasets, including Stanford Online Products (SoP) and Pittsburgh30k, using four different off-the-shelf foundation models, including DinoV2 and CLIP. AE-SVC demonstrates up to a $16\%$ improvement in retrieval performance, while (SS)$_2$D shows a further $10\%$ improvement for smaller embedding sizes.
Abstract（参考訳）: 画像検索はロボット工学とコンピュータビジョンにおいて重要であり、ロボットの位置認識や視覚に基づく製品レコメンデーションに下流の応用がある。現代の検索システムはスケーラビリティと効率性の2つの大きな課題に直面している。最先端の画像検索システムは、スケーラビリティに欠けるアプローチであるデータセットごとに特定のニューラルネットワークをトレーニングする。さらに, 検索速度は埋込量に比例するので, 埋込量が大きい既存のシステムでは効率が良くない。スケーラビリティに対処するため、最近の研究では既成の基礎モデルが提案されている。しかしながら、これらのモデルはデータセットに適用されるが、データセット固有のモデルに匹敵するパフォーマンスを達成するには不十分である。我々の重要な観察は、基礎モデルが効果的な検索に必要な微妙さを捉える一方で、その埋め込み空間の基盤となる分布がコサイン類似性探索に悪影響を及ぼすことである。本稿では,AE-SVC (Strong Variance Constraints) を用いたオートエンコーダを提案する。 AE-SVCの詳細な理論的解析を行う。効率性に対処するため,単一ショット類似空間蒸留 (Single-shot similarity Space Distillation, SSS)$_2$D) を導入する。我々は,Stanford Online Products (SoP) と Pittsburgh30k を含む4つの検索データセットに対して,DinoV2 と CLIP を含む4つのオフザシェルフ基盤モデルを用いて広範な実験を行った。 AE-SVCは検索性能が最大で16\%改善され、 (SS)$_2$Dは、より小さな埋め込みサイズでさらに10\%改善されている。

関連論文リスト

AdaDeDup: Adaptive Hybrid Data Pruning for Efficient Large-Scale Object Detection Training [33.01500681857408]
我々は、密度に基づくプルーニングとモデルインフォームドフィードバックをクラスタ適応的に統合する新しいフレームワークであるAdaptive De-Duplication (AdaDeDup)を紹介した。これは、顕著なベースラインを著しく上回り、性能劣化を著しく低減し、20%のデータを刈り取りながら、ほぼオリジナルに近いモデル性能を達成する。
論文参考訳（メタデータ） (2025-06-24T22:35:51Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
AdaS&S: a One-Shot Supernet Approach for Automatic Embedding Size Search in Deep Recommender System [15.119643144224021]
本稿では,AdaS&Sと呼ばれる新しい一発AESフレームワークを提案する。最初の段階では、トレーニングパラメータを埋め込みサイズから切り離し、適応サンプリング法を提案し、よく訓練されたスーパーネットを生成する。第2段階では、モデル効果の恩恵を受ける埋め込みサイズを得るために、以前に訓練されたスーパーネットを利用した強化学習探索プロセスを設計する。
論文参考訳（メタデータ） (2024-11-12T03:02:50Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文参考訳（メタデータ） (2024-01-11T15:13:31Z)
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文参考訳（メタデータ） (2023-12-03T13:50:24Z)
A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文参考訳（メタデータ） (2023-11-03T17:29:46Z)
MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。 CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-23T16:32:18Z)
Efficient Scopeformer: Towards Scalable and Rich Feature Extraction for Intracranial Hemorrhage Detection [0.7734726150561088]
ScopeformerはCT画像における頭蓋内出血分類のための新しいマルチCNN-ViTモデルである。本稿では,CNN生成特徴間の冗長性を低減し,ViTの入力サイズを制御するための効果的な特徴投影法を提案する。様々なスコープフォーマーモデルによる実験により、モデルの性能は特徴抽出器で使用される畳み込みブロックの数に比例することが示された。
論文参考訳（メタデータ） (2023-02-01T03:51:27Z)
GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文参考訳（メタデータ） (2023-01-13T00:40:24Z)
Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文参考訳（メタデータ） (2021-09-01T07:01:33Z)
Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-11-13T06:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。