論文の概要: Learnable Pillar-based Re-ranking for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2304.12570v1
- Date: Tue, 25 Apr 2023 04:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:00:27.106818
- Title: Learnable Pillar-based Re-ranking for Image-Text Retrieval
- Title(参考訳): 画像テキスト検索のための学習可能なピラーベースリグレード
- Authors: Leigang Qu, Meng Liu, Wenjie Wang, Zhedong Zheng, Liqiang Nie,
Tat-Seng Chua
- Abstract要約: 画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
- 参考スコア(独自算出の注目度): 119.9979224297237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text retrieval aims to bridge the modality gap and retrieve cross-modal
content based on semantic similarities. Prior work usually focuses on the
pairwise relations (i.e., whether a data sample matches another) but ignores
the higher-order neighbor relations (i.e., a matching structure among multiple
data samples). Re-ranking, a popular post-processing practice, has revealed the
superiority of capturing neighbor relations in single-modality retrieval tasks.
However, it is ineffective to directly extend existing re-ranking algorithms to
image-text retrieval. In this paper, we analyze the reason from four
perspectives, i.e., generalization, flexibility, sparsity, and asymmetry, and
propose a novel learnable pillar-based re-ranking paradigm. Concretely, we
first select top-ranked intra- and inter-modal neighbors as pillars, and then
reconstruct data samples with the neighbor relations between them and the
pillars. In this way, each sample can be mapped into a multimodal pillar space
only using similarities, ensuring generalization. After that, we design a
neighbor-aware graph reasoning module to flexibly exploit the relations and
excavate the sparse positive items within a neighborhood. We also present a
structure alignment constraint to promote cross-modal collaboration and align
the asymmetric modalities. On top of various base backbones, we carry out
extensive experiments on two benchmark datasets, i.e., Flickr30K and MS-COCO,
demonstrating the effectiveness, superiority, generalization, and
transferability of our proposed re-ranking paradigm.
- Abstract(参考訳): 画像テキスト検索は、意味的類似性に基づいて、モダリティギャップを橋渡しし、クロスモーダルコンテンツを取得することを目的としている。
先行研究は通常、ペアワイズ関係(すなわち、データサンプルが他のデータと一致するかどうか)に焦点を当てるが、高次隣接関係(すなわち、複数のデータサンプル間のマッチング構造)を無視している。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
しかし、既存の再分類アルゴリズムを直接画像テキスト検索に拡張するのは効果がない。
本稿では,一般化,柔軟性,スパーシティ,非対称性という4つの視点から理由を分析し,新しい学習可能な柱型再ランキングパラダイムを提案する。
具体的には,まず最上位の個体間およびモード間近傍を柱として選択し,それらと柱間の隣接関係でデータサンプルを再構成する。
このように、各サンプルは類似性のみを用いてマルチモーダルピラー空間にマッピングでき、一般化が保証される。
その後、関係を柔軟に活用し、近傍のばらばらな正の項目を発掘するために、隣り合うグラフ推論モジュールを設計する。
また,クロスモーダル協調を促進し,非対称モダリティを整合させる構造アライメント制約を提案する。
さまざまなベースバックボーンに加えて,flickr30kとms-cocoという2つのベンチマークデータセットで広範な実験を行い,提案手法の有効性,優越性,一般化,転送性について実証した。
関連論文リスト
- Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and
Gallery Banks [5.164924773752648]
ハネス(Hubness)は、少数のギャラリーデータポイントが頻繁に検索される現象であり、その結果、検索性能が低下する。
ハブとしてのハブ性に対処するために,ギャラリーデータとクエリデータの両方を組み込むことは,ギャラリーデータとクエリデータとの類似性が常に高いことを示す。
本稿では,テキストイメージ,テキストビデオ,テキストオーディオなど,多様な言語基盤ベンチマークに関する広範な実験結果を示す。
論文 参考訳(メタデータ) (2023-10-17T22:10:17Z) - DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking [31.15972952813689]
本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。
DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。
2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-10-09T10:21:42Z) - Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-26T07:03:56Z) - Adaptive Similarity Bootstrapping for Self-Distillation based
Representation Learning [40.94237853380154]
NNCLRは、クロスビューパラダイムを超えて、コントラスト的な設定で隣人のブートストラップを介して取得したさまざまなイメージの正のペアを使用する。
負のサンプルに依存する対照的な学習環境とは対照的に, 自己蒸留方式に隣接したブートストラップを組み込むことで, 性能低下や崩壊を招く可能性があることを実証的に示す。
本稿では,潜在空間の品質の推定値に基づいて,近隣住民を適応的にブートストラップする手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T18:40:17Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Cross-Domain Few-Shot Relation Extraction via Representation Learning
and Domain Adaptation [1.1602089225841632]
短いショット関係抽出は、各関係にラベル付き文がほとんどない新しい関係を認識することを目的としている。
従来の距離法に基づく数ショット関係抽出アルゴリズムは、訓練された距離関数を用いて、クエリ文の埋め込みに埋め込まれた少数のラベル付き文によって生成されたプロトタイプを比較することにより、関係を識別する。
我々は,先行知識からより解釈可能で効率的なプロトタイプを学習し,様々な領域における新たな関係をより効果的に抽出するために,関係の本質的な意味論を学習することを提案する。
論文 参考訳(メタデータ) (2022-12-05T19:34:52Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Informed Multi-context Entity Alignment [27.679124991733907]
Informed Multi-context Entity Alignment (IMEA)モデルを提案する。
特にTransformerを導入し、関係、経路、近傍のコンテキストを柔軟にキャプチャする。
総論的推論は、埋め込み類似性と関係性/整合性の両方の機能に基づいてアライメント確率を推定するために用いられる。
いくつかのベンチマークデータセットの結果は、既存の最先端エンティティアライメント手法と比較して、IMEAモデルの優位性を示している。
論文 参考訳(メタデータ) (2022-01-02T06:29:30Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。