論文の概要: Hubness Reduction with Dual Bank Sinkhorn Normalization for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2508.02538v1
- Date: Mon, 04 Aug 2025 15:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 13:19:41.879561
- Title: Hubness Reduction with Dual Bank Sinkhorn Normalization for Cross-Modal Retrieval
- Title(参考訳): 二重バンクシンクホーン正規化によるモーダル検索におけるハッチネス低減
- Authors: Zhengxin Pan, Haishuai Wang, Fangyu Wu, Peng Zhang, Jiajun Bu,
- Abstract要約: ハネス(Hubness)は、少数のターゲットが、多数のクエリの隣人として頻繁に現れる現象である。
ハブ性を減らすためのいくつかの方法が提案されているが、その基盤となるメカニズムはよく分かっていない。
本稿では,より効果的なハブ性低減のための確率バランスフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.329352187335312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past decade has witnessed rapid advancements in cross-modal retrieval, with significant progress made in accurately measuring the similarity between cross-modal pairs. However, the persistent hubness problem, a phenomenon where a small number of targets frequently appear as nearest neighbors to numerous queries, continues to hinder the precision of similarity measurements. Despite several proposed methods to reduce hubness, their underlying mechanisms remain poorly understood. To bridge this gap, we analyze the widely-adopted Inverted Softmax approach and demonstrate its effectiveness in balancing target probabilities during retrieval. Building on these insights, we propose a probability-balancing framework for more effective hubness reduction. We contend that balancing target probabilities alone is inadequate and, therefore, extend the framework to balance both query and target probabilities by introducing Sinkhorn Normalization (SN). Notably, we extend SN to scenarios where the true query distribution is unknown, showing that current methods, which rely solely on a query bank to estimate target hubness, produce suboptimal results due to a significant distributional gap between the query bank and targets. To mitigate this issue, we introduce Dual Bank Sinkhorn Normalization (DBSN), incorporating a corresponding target bank alongside the query bank to narrow this distributional gap. Our comprehensive evaluation across various cross-modal retrieval tasks, including image-text retrieval, video-text retrieval, and audio-text retrieval, demonstrates consistent performance improvements, validating the effectiveness of both SN and DBSN. All codes are publicly available at https://github.com/ppanzx/DBSN.
- Abstract(参考訳): 過去10年間、クロスモーダル検索の急速な進歩が見られ、クロスモーダルペア間の類似性を正確に測定する大きな進歩が見られた。
しかし、少数のターゲットが多数のクエリに最も近いものとして頻繁に現れる永続的ハブ性問題は、類似度測定の精度を妨げ続けている。
ハブ性を減らすためのいくつかの方法が提案されているが、その基盤となるメカニズムはよく分かっていない。
このギャップを埋めるために、広く採用されているInverted Softmaxアプローチを分析し、検索時の目標確率のバランスをとる上での有効性を実証する。
これらの知見に基づいて、より効果的なハブ性低減のための確率バランスフレームワークを提案する。
そこで我々は,Sinkhorn Normalization (SN)を導入して,クエリとターゲットの確率のバランスをとるためのフレームワークを拡張した。
特に、SNを真のクエリ分布が不明なシナリオに拡張し、クエリバンクのみに依存する現在のメソッドが、クエリバンクとターゲットの間に大きな分散ギャップがあるため、ターゲットのハブ性を見積もる。
この問題を軽減するため,Dual Bank Sinkhorn Normalization (DBSN)を導入し,この分散ギャップを狭めるために,クエリバンクと並行して対応するターゲットバンクを組み込んだ。
画像-テキスト検索,ビデオ-テキスト検索,音声-テキスト検索など多種多様なモーダル検索タスクを対象とした総合的な評価を行い,一貫した性能向上を示し,SNとDBSNの有効性を検証した。
すべてのコードはhttps://github.com/ppanzx/DBSNで公開されている。
関連論文リスト
- Uncertainty-Masked Bernoulli Diffusion for Camouflaged Object Detection Refinement [24.522233459116354]
カモフラーゲ型物体検出(COD)は、ターゲットとその背景の微妙な視覚的差異による固有の課題を提示する。
本研究では,COD に特化して設計された最初の生成的改良フレームワークである Uncertainty-Masked Bernoulli Diffusion (UMBD) モデルを提案する。
UMBDは、セグメンテーション品質の低い残留領域にベルヌーイ拡散を選択的に適用する不確実性誘導マスキング機構を導入する。
論文 参考訳(メタデータ) (2025-06-12T14:02:18Z) - NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval [15.409022911063241]
NeighborRetrはハブの学習のバランスを保ち、様々な種類の隣人の関係を適応的に調整する新しい手法である。
我々は、NeighborRetrが複数のクロスモーダル検索ベンチマークで最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2025-03-13T16:33:55Z) - Evaluating the Security of Merkle Trees in the Internet of Things: An Analysis of Data Falsification Probabilities [27.541105686358378]
本稿では,メルクルパスの長さとハッシュ長を考慮し,データ改ざん確率を計算する理論的枠組みを開発する。
実験的な実験により理論モデルが検証され、様々なハッシュ長とメルクルパス長を持つシミュレーションが探索された。
以上の結果より, より長いメルクル経路との逆関係と, ハッシュ長の増加に伴うファルシフィケーション確率の低下が示唆された。
論文 参考訳(メタデータ) (2024-04-18T11:24:12Z) - Trade-off between Bagging and Boosting for quantum
separability-entanglement classification [0.0]
量子分離性問題に対するランダムアンダーサンプリングブースターCHA(RUSBCHA)の長所と短所を比較した。
結果は、RUSBCHAがBCHAアプローチに代わるものであることを示唆している。
論文 参考訳(メタデータ) (2024-01-22T15:29:35Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and
Gallery Banks [5.164924773752648]
ハネス(Hubness)は、少数のギャラリーデータポイントが頻繁に検索される現象であり、その結果、検索性能が低下する。
ハブとしてのハブ性に対処するために,ギャラリーデータとクエリデータの両方を組み込むことは,ギャラリーデータとクエリデータとの類似性が常に高いことを示す。
本稿では,テキストイメージ,テキストビデオ,テキストオーディオなど,多様な言語基盤ベンチマークに関する広範な実験結果を示す。
論文 参考訳(メタデータ) (2023-10-17T22:10:17Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Distributionally Robust Bayesian Optimization with $\varphi$-divergences [45.48814080654241]
我々は,$varphi$-divergencesにおけるデータシフトに対するロバスト性について考察する。
この設定におけるDRO-BO問題は有限次元最適化問題と等価であり、連続的な文脈でも証明可能な部分線型後悔境界で容易に実装できることを示す。
論文 参考訳(メタデータ) (2022-03-04T04:34:52Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。