Fugu-MT 論文翻訳(概要): Learnable Pillar-based Re-ranking for Image-Text Retrieval

論文の概要: Learnable Pillar-based Re-ranking for Image-Text Retrieval

arxiv url: http://arxiv.org/abs/2304.12570v1
Date: Tue, 25 Apr 2023 04:33:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 22:00:27.106818
Title: Learnable Pillar-based Re-ranking for Image-Text Retrieval
Title（参考訳）: 画像テキスト検索のための学習可能なピラーベースリグレード
Authors: Leigang Qu, Meng Liu, Wenjie Wang, Zhedong Zheng, Liqiang Nie, Tat-Seng Chua
Abstract要約: 画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
参考スコア（独自算出の注目度）: 119.9979224297237
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-text retrieval aims to bridge the modality gap and retrieve cross-modal content based on semantic similarities. Prior work usually focuses on the pairwise relations (i.e., whether a data sample matches another) but ignores the higher-order neighbor relations (i.e., a matching structure among multiple data samples). Re-ranking, a popular post-processing practice, has revealed the superiority of capturing neighbor relations in single-modality retrieval tasks. However, it is ineffective to directly extend existing re-ranking algorithms to image-text retrieval. In this paper, we analyze the reason from four perspectives, i.e., generalization, flexibility, sparsity, and asymmetry, and propose a novel learnable pillar-based re-ranking paradigm. Concretely, we first select top-ranked intra- and inter-modal neighbors as pillars, and then reconstruct data samples with the neighbor relations between them and the pillars. In this way, each sample can be mapped into a multimodal pillar space only using similarities, ensuring generalization. After that, we design a neighbor-aware graph reasoning module to flexibly exploit the relations and excavate the sparse positive items within a neighborhood. We also present a structure alignment constraint to promote cross-modal collaboration and align the asymmetric modalities. On top of various base backbones, we carry out extensive experiments on two benchmark datasets, i.e., Flickr30K and MS-COCO, demonstrating the effectiveness, superiority, generalization, and transferability of our proposed re-ranking paradigm.
Abstract（参考訳）: 画像テキスト検索は、意味的類似性に基づいて、モダリティギャップを橋渡しし、クロスモーダルコンテンツを取得することを目的としている。先行研究は通常、ペアワイズ関係(すなわち、データサンプルが他のデータと一致するかどうか)に焦点を当てるが、高次隣接関係(すなわち、複数のデータサンプル間のマッチング構造)を無視している。一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。しかし、既存の再分類アルゴリズムを直接画像テキスト検索に拡張するのは効果がない。本稿では,一般化,柔軟性,スパーシティ,非対称性という4つの視点から理由を分析し,新しい学習可能な柱型再ランキングパラダイムを提案する。具体的には,まず最上位の個体間およびモード間近傍を柱として選択し,それらと柱間の隣接関係でデータサンプルを再構成する。このように、各サンプルは類似性のみを用いてマルチモーダルピラー空間にマッピングでき、一般化が保証される。その後、関係を柔軟に活用し、近傍のばらばらな正の項目を発掘するために、隣り合うグラフ推論モジュールを設計する。また,クロスモーダル協調を促進し,非対称モダリティを整合させる構造アライメント制約を提案する。さまざまなベースバックボーンに加えて,flickr30kとms-cocoという2つのベンチマークデータセットで広範な実験を行い,提案手法の有効性,優越性,一般化,転送性について実証した。

関連論文リスト

Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-04-15T17:35:56Z)
SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文参考訳（メタデータ） (2024-10-28T04:50:46Z)
Multimodal Relational Triple Extraction with Query-based Entity Object Transformer [20.97497765985682]
マルチモーダル関係抽出は、柔軟で現実的な知識の構築に不可欠である。画像・テキスト・ペアから全三重項(エンタリティ,関係,オブジェクト領域)を抽出することを目的としたマルチモーダル・エンティティ・オブジェクト・トリプル抽出を提案する。また,テキスト情報と視覚情報の相互作用と融合を動的に探索するクエリベースモデルQEOTを提案する。
論文参考訳（メタデータ） (2024-08-16T12:43:38Z)
Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文参考訳（メタデータ） (2024-04-28T08:44:28Z)
DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking [31.15972952813689]
本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。 DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。 2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
論文参考訳（メタデータ） (2023-10-09T10:21:42Z)
Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。 MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。我々のHMRNは最先端の手法を大幅に上回っている。
論文参考訳（メタデータ） (2023-06-26T07:03:56Z)
Adaptive Similarity Bootstrapping for Self-Distillation based Representation Learning [40.94237853380154]
NNCLRは、クロスビューパラダイムを超えて、コントラスト的な設定で隣人のブートストラップを介して取得したさまざまなイメージの正のペアを使用する。負のサンプルに依存する対照的な学習環境とは対照的に, 自己蒸留方式に隣接したブートストラップを組み込むことで, 性能低下や崩壊を招く可能性があることを実証的に示す。本稿では,潜在空間の品質の推定値に基づいて,近隣住民を適応的にブートストラップする手法を提案する。
論文参考訳（メタデータ） (2023-03-23T18:40:17Z)
BiCro: Noisy Correspondence Rectification for Multi-modality Data via Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。 3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文参考訳（メタデータ） (2023-03-22T09:33:50Z)
Cross-Domain Few-Shot Relation Extraction via Representation Learning and Domain Adaptation [1.1602089225841632]
短いショット関係抽出は、各関係にラベル付き文がほとんどない新しい関係を認識することを目的としている。従来の距離法に基づく数ショット関係抽出アルゴリズムは、訓練された距離関数を用いて、クエリ文の埋め込みに埋め込まれた少数のラベル付き文によって生成されたプロトタイプを比較することにより、関係を識別する。我々は,先行知識からより解釈可能で効率的なプロトタイプを学習し,様々な領域における新たな関係をより効果的に抽出するために,関係の本質的な意味論を学習することを提案する。
論文参考訳（メタデータ） (2022-12-05T19:34:52Z)
ReSel: N-ary Relation Extraction from Scientific Text and Tables by Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。 3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-26T02:28:02Z)
Modelling Neighbor Relation in Joint Space-Time Graph for Video Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文参考訳（メタデータ） (2021-09-28T05:40:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。