論文の概要: NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2503.10526v1
- Date: Thu, 13 Mar 2025 16:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:35.354687
- Title: NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval
- Title(参考訳): ネバーレトル:中銀中心のバランスをとる-クロスモーダル検索で
- Authors: Zengrong Lin, Zheng Wang, Tianwen Qian, Pan Mu, Sixian Chan, Cong Bai,
- Abstract要約: NeighborRetrはハブの学習のバランスを保ち、様々な種類の隣人の関係を適応的に調整する新しい手法である。
我々は、NeighborRetrが複数のクロスモーダル検索ベンチマークで最先端の結果を得ることを示す。
- 参考スコア(独自算出の注目度): 15.409022911063241
- License:
- Abstract: Cross-modal retrieval aims to bridge the semantic gap between different modalities, such as visual and textual data, enabling accurate retrieval across them. Despite significant advancements with models like CLIP that align cross-modal representations, a persistent challenge remains: the hubness problem, where a small subset of samples (hubs) dominate as nearest neighbors, leading to biased representations and degraded retrieval accuracy. Existing methods often mitigate hubness through post-hoc normalization techniques, relying on prior data distributions that may not be practical in real-world scenarios. In this paper, we directly mitigate hubness during training and introduce NeighborRetr, a novel method that effectively balances the learning of hubs and adaptively adjusts the relations of various kinds of neighbors. Our approach not only mitigates the hubness problem but also enhances retrieval performance, achieving state-of-the-art results on multiple cross-modal retrieval benchmarks. Furthermore, NeighborRetr demonstrates robust generalization to new domains with substantial distribution shifts, highlighting its effectiveness in real-world applications. We make our code publicly available at: https://github.com/zzezze/NeighborRetr .
- Abstract(参考訳): クロスモーダル検索は、視覚データやテキストデータなど、さまざまなモダリティ間のセマンティックなギャップを埋めることを目的としており、それらの間の正確な検索を可能にする。
クロスモーダル表現を整列するCLIPのようなモデルでは大きな進歩があったが、永続的な課題が残る: ハブ性問題は、サンプル(ハブ)の小さなサブセットが近接するものとして支配され、バイアスのある表現と劣化した検索精度をもたらす。
既存の手法は、実世界のシナリオでは実用的でないかもしれない事前のデータ分布に依存して、ポストホック正規化技術によってハブ性を緩和することが多い。
本稿では,訓練中の親和性を直接緩和し,ハブの学習のバランスを効果的に調整し,様々な隣人の関係を適応的に調整する手法であるNeighborRetrを紹介する。
提案手法は、ハブ性問題を緩和するだけでなく、検索性能も向上し、複数のクロスモーダル検索ベンチマークで最先端の結果が得られた。
さらに、NeighborRetrは、分散シフトがかなり大きい新しいドメインへの堅牢な一般化を示し、現実世界のアプリケーションにおけるその有効性を強調している。
私たちのコードは、https://github.com/zzezze/NeighborRetrで公開しています。
関連論文リスト
- RREH: Reconstruction Relations Embedded Hashing for Semi-Paired Cross-Modal Retrieval [32.06421737874828]
Restructation Relations Embedded Hashing (RREH) は、半ペア型クロスモーダル検索タスク用に設計されている。
RREHはマルチモーダルデータが共通の部分空間を共有すると仮定する。
アンカーはペアのデータからサンプリングされ ハッシュ学習の効率が向上します
論文 参考訳(メタデータ) (2024-05-28T03:12:54Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Far Away in the Deep Space: Dense Nearest-Neighbor-Based
Out-of-Distribution Detection [33.78080060234557]
Nearest-Neighborsアプローチは、オブジェクト中心のデータドメインでうまく機能することが示されている。
近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近
論文 参考訳(メタデータ) (2022-11-12T13:32:19Z) - Prototype-Based Layered Federated Cross-Modal Hashing [14.844848099134648]
本稿では,プロトタイプをベースとした層状層状クロスモーダルハッシュ法を提案する。
具体的には、サーバ上のインスタンスとクラス間の類似性を学ぶためにプロトタイプが導入された。
パーソナライズされたフェデレーション学習を実現するために、ハイパーネットワークがサーバ上に展開され、異なるレイヤのローカルモデルの重みを動的に更新する。
論文 参考訳(メタデータ) (2022-10-27T15:11:12Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Learning Robust Representation for Clustering through Locality
Preserving Variational Discriminative Network [16.259673823482665]
Variational Deep Embeddingは、さまざまなクラスタリングタスクで大きな成功を収めます。
VaDEは,1)入力ノイズに弱い,2)隣接するデータポイント間の局所性情報を無視する,という2つの問題に悩まされている。
強固な埋め込み判別器と局所構造制約によりvadeを改善する共同学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-25T02:31:55Z) - Cross-Domain Generalization Through Memorization: A Study of Nearest
Neighbors in Neural Duplicate Question Detection [72.01292864036087]
重複質問検出(DQD)は,コミュニティの効率向上と自動質問応答システムの実現に重要である。
我々は、DQDのクロスドメイン一般化のために、ニューラル表現を活用し、近接する隣人を研究する。
StackExchange、Spring、Quoraの各データセットの異なるクロスドメインシナリオにおいて、このメソッドの堅牢なパフォーマンスを観察します。
論文 参考訳(メタデータ) (2020-11-22T19:19:33Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - PushNet: Efficient and Adaptive Neural Message Passing [1.9121961872220468]
メッセージパッシングニューラルネットワークは、最近、グラフ上での表現学習に対する最先端のアプローチへと進化した。
既存のメソッドは、複数のラウンドですべてのエッジに沿って同期メッセージパッシングを実行する。
我々は、収束するまで最も関連性の高いエッジに沿ってのみ情報をプッシュする、新しい非同期メッセージパッシングアプローチについて検討する。
論文 参考訳(メタデータ) (2020-03-04T18:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。