論文の概要: ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling
- arxiv url: http://arxiv.org/abs/2406.17507v1
- Date: Tue, 25 Jun 2024 12:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 21:11:25.603335
- Title: ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling
- Title(参考訳): ACE: 粗大な要素間セマンティックモデリングを備えた生成可能なクロスモーダル検索フレームワーク
- Authors: Minghui Fang, Shengpeng Ji, Jialong Zuo, Hai Huang, Yan Xia, Jieming Zhu, Xize Cheng, Xiaoda Yang, Wenrui Liu, Gang Wang, Zhenhua Dong, Zhou Zhao,
- Abstract要約: 我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
- 参考スコア(独自算出の注目度): 53.97609687516371
- License:
- Abstract: Generative retrieval, which has demonstrated effectiveness in text-to-text retrieval, utilizes a sequence-to-sequence model to directly generate candidate identifiers based on natural language queries. Without explicitly computing the similarity between queries and candidates, generative retrieval surpasses dual-tower models in both speed and accuracy on large-scale corpora, providing new insights for cross-modal retrieval. However, constructing identifiers for multimodal data remains an untapped problem, and the modality gap between natural language queries and multimodal candidates hinders retrieval performance due to the absence of additional encoders. To this end, we propose a pioneering generAtive Cross-modal rEtrieval framework (ACE), which is a comprehensive framework for end-to-end cross-modal retrieval based on coarse-to-fine semantic modeling. We propose combining K-Means and RQ-VAE to construct coarse and fine tokens, serving as identifiers for multimodal data. Correspondingly, we design the coarse-to-fine feature fusion strategy to efficiently align natural language queries and candidate identifiers. ACE is the first work to comprehensively demonstrate the feasibility of generative approach on text-to-image/audio/video retrieval, challenging the dominance of the embedding-based dual-tower architecture. Extensive experiments show that ACE achieves state-of-the-art performance in cross-modal retrieval and outperforms the strong baselines on Recall@1 by 15.27% on average.
- Abstract(参考訳): テキスト・ツー・テキスト検索の有効性を実証した生成検索では、シーケンス・ツー・シーケンスモデルを用いて自然言語クエリに基づいて候補識別子を直接生成する。
クエリと候補の類似性を明示的に計算することなく、生成的検索は大規模コーパス上での速度と精度の両方でデュアルトワーモデルを超え、クロスモーダル検索の新しい洞察を提供する。
しかし、マルチモーダルデータに対する識別子の構築は未解決の問題であり、自然言語クエリとマルチモーダル候補とのモダリティギャップは、追加エンコーダがないために検索性能を損なう。
この目的のために、我々は、粗大な意味モデリングに基づくエンドツーエンドのクロスモーダル検索のための包括的フレームワークである、先駆的なジェネリッククロスモーダルrEtrievalフレームワーク(ACE)を提案する。
K-MeansとRQ-VAEを組み合わせて粗いトークンと細かなトークンを構築し、マルチモーダルデータの識別子として機能する。
それに対応して、自然言語クエリと候補識別子を効率的に整合させるために、粗大な特徴融合戦略を設計する。
ACEは、テキスト・ツー・イメージ/オーディオ/ビデオ検索における生成的アプローチの実現可能性を包括的に示す最初の研究であり、埋め込み型デュアル・トウワーアーキテクチャの優位性に挑戦する。
大規模な実験により、ACEはクロスモーダル検索において最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回った。
関連論文リスト
- GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Generative Retrieval with Preference Optimization for E-commerce Search [16.78829577915103]
我々は、好みを最適化した生成検索という、Eコマース検索のための革新的なフレームワークを開発する。
生の項目のタイトルを表すためにマルチスパン識別子を使用し、クエリからタイトルを生成するタスクを、クエリからマルチスパン識別子を生成するタスクに変換する。
実験の結果,本フレームワークは実世界のデータセット上での競合性能を実現し,オンラインA/Bテストはコンバージョンゲインの改善における優位性と有効性を示した。
論文 参考訳(メタデータ) (2024-07-29T09:31:19Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。