論文の概要: Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and
Gallery Banks
- arxiv url: http://arxiv.org/abs/2310.11612v1
- Date: Tue, 17 Oct 2023 22:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:16:29.114392
- Title: Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and
Gallery Banks
- Title(参考訳): バランス法:クエリとギャラリーバンクとの相互検索におけるハッチネスの緩和
- Authors: Yimu Wang, Xiangru Jian, Bo Xue
- Abstract要約: ハネス(Hubness)は、少数のギャラリーデータポイントが頻繁に検索される現象であり、その結果、検索性能が低下する。
ハブとしてのハブ性に対処するために,ギャラリーデータとクエリデータの両方を組み込むことは,ギャラリーデータとクエリデータとの類似性が常に高いことを示す。
本稿では,テキストイメージ,テキストビデオ,テキストオーディオなど,多様な言語基盤ベンチマークに関する広範な実験結果を示す。
- 参考スコア(独自算出の注目度): 5.164924773752648
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we present a post-processing solution to address the hubness
problem in cross-modal retrieval, a phenomenon where a small number of gallery
data points are frequently retrieved, resulting in a decline in retrieval
performance. We first theoretically demonstrate the necessity of incorporating
both the gallery and query data for addressing hubness as hubs always exhibit
high similarity with gallery and query data. Second, building on our
theoretical results, we propose a novel framework, Dual Bank Normalization
(DBNorm). While previous work has attempted to alleviate hubness by only
utilizing the query samples, DBNorm leverages two banks constructed from the
query and gallery samples to reduce the occurrence of hubs during inference.
Next, to complement DBNorm, we introduce two novel methods, dual inverted
softmax and dual dynamic inverted softmax, for normalizing similarity based on
the two banks. Specifically, our proposed methods reduce the similarity between
hubs and queries while improving the similarity between non-hubs and queries.
Finally, we present extensive experimental results on diverse language-grounded
benchmarks, including text-image, text-video, and text-audio, demonstrating the
superior performance of our approaches compared to previous methods in
addressing hubness and boosting retrieval performance. Our code is available at
https://github.com/yimuwangcs/Better_Cross_Modal_Retrieval.
- Abstract(参考訳): 本研究では,少数のギャラリーデータポイントが頻繁に検索され,検索性能が低下する現象であるクロスモーダル検索におけるハブネス問題に対処するポストプロセッシングソリューションを提案する。
まず,問合せと問合せデータとの類似度が高いハブとして,問合せデータと問合せデータの両方を組み込むことの必要性を理論的に示す。
第2に,理論的な結果に基づいて,新たな枠組みであるDBNormを提案する。
これまでの研究はクエリサンプルのみを利用することでハブネスを緩和しようとしたが、dbnormはクエリとギャラリーサンプルから構築された2つのバンクを活用して、推論中にハブが発生することを減らす。
次に,dbnormを補完するために,2つの新しい手法である2つの逆ソフトマックス法と2つの動的反転ソフトマックス法を導入する。
具体的には,ハブとクエリ間の類似性を低減しつつ,非ハブとクエリ間の類似性を向上する手法を提案する。
最後に,テキストイメージ,テキストビデオ,テキストオーディオなど,多種多様な言語基盤ベンチマークに関する広範な実験結果を示す。
私たちのコードはhttps://github.com/yimuwangcs/Better_Cross_Modal_Retrievalで利用可能です。
関連論文リスト
- Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Direct Diffusion Bridge using Data Consistency for Inverse Problems [65.04689839117692]
拡散モデルに基づく逆問題解法は優れた性能を示したが、速度は制限されている。
いくつかの最近の研究は、拡散プロセスを構築し、クリーンで破損したものを直接ブリッジすることでこの問題を緩和しようと試みている。
微調整を必要とせずにデータの一貫性を強制する改良された推論手順を提案する。
論文 参考訳(メタデータ) (2023-05-31T12:51:10Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Cross Modal Retrieval with Querybank Normalisation [41.877255953069074]
最先端のジョイント埋め込みは長年にわたるハブ性の問題に悩まされていることを示す。
組込み空間のハブを考慮したクエリ類似性を再正規化する,シンプルだが効果的なフレームワークを定式化する。
QB-Normは、テストセットクエリに同時アクセスすることなく効果的に動作することを示す。
論文 参考訳(メタデータ) (2021-12-23T18:51:58Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。