論文の概要: Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval
- arxiv url: http://arxiv.org/abs/2206.08842v1
- Date: Fri, 17 Jun 2022 15:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 18:24:42.406746
- Title: Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval
- Title(参考訳): エンティティグラフによるインスタンスレベルの製品検索のためのクロスモーダル事前トレーニング
- Authors: Xiao Dong, Xunlin Zhan, Yunchao Wei, Xiaoyong Wei, Yaowei Wang,
Minlong Lu, Xiaochun Cao, Xiaodan Liang
- Abstract要約: 本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
- 参考スコア(独自算出の注目度): 152.3504607706575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our goal in this research is to study a more realistic environment in which
we can conduct weakly-supervised multi-modal instance-level product retrieval
for fine-grained product categories. We first contribute the Product1M
datasets, and define two real practical instance-level retrieval tasks to
enable the evaluations on the price comparison and personalized
recommendations. For both instance-level tasks, how to accurately pinpoint the
product target mentioned in the visual-linguistic data and effectively decrease
the influence of irrelevant contents is quite challenging. To address this, we
exploit to train a more effective cross-modal pertaining model which is
adaptively capable of incorporating key concept information from the
multi-modal data, by using an entity graph whose node and edge respectively
denote the entity and the similarity relation between entities. Specifically, a
novel Entity-Graph Enhanced Cross-Modal Pretraining (EGE-CMP) model is proposed
for instance-level commodity retrieval, that explicitly injects entity
knowledge in both node-based and subgraph-based ways into the multi-modal
networks via a self-supervised hybrid-stream transformer, which could reduce
the confusion between different object contents, thereby effectively guiding
the network to focus on entities with real semantic. Experimental results well
verify the efficacy and generalizability of our EGE-CMP, outperforming several
SOTA cross-modal baselines like CLIP, UNITER and CAPTURE.
- Abstract(参考訳): 本研究の目的は、より現実的な環境において、細粒度製品カテゴリに対する弱制御マルチモーダル・インスタンスレベルの製品検索を可能にすることである。
まず、product1mデータセットを投稿し、2つの現実的なインスタンスレベルの検索タスクを定義し、価格比較とパーソナライズドレコメンデーションの評価を可能にします。
どちらの場合も、視覚言語データで言及されている製品ターゲットを正確に特定し、無関係な内容の影響を効果的に低減する方法は非常に難しい。
本研究では、ノードとエッジがそれぞれエンティティを表すエンティティグラフとエンティティ間の類似性関係を用いて、マルチモーダルデータからキー概念情報を適応的に組み込むことのできる、より効果的なクロスモーダル関連モデルの訓練を行う。
具体的には,自己教師付きハイブリッドストリームトランスフォーマーによって,ノードベースとサブグラフベースの両方の方法でエンティティ知識をマルチモーダルネットワークに明示的に注入し,異なるオブジェクトコンテンツ間の混乱を低減し,ネットワークを実際の意味を持つエンティティに集中させる,新たなエンティティグラフ強化クロスモーダルプリトレーニング(ege-cmp)モデルを提案する。
EGE-CMPはCLIP, UNITER, CAPTUREなどのSOTAクロスモーダルベースラインより優れており, 有効性と一般化性は良好であった。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - One for all: A novel Dual-space Co-training baseline for Large-scale
Multi-View Clustering [42.92751228313385]
我々は、Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という新しいマルチビュークラスタリングモデルを提案する。
提案手法の主な目的は,2つの異なる空間における協調学習を活用することにより,クラスタリング性能を向上させることである。
我々のアルゴリズムは近似線形計算複雑性を持ち、大規模データセットへの適用が成功することを保証している。
論文 参考訳(メタデータ) (2024-01-28T16:30:13Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - Graph Pattern Loss based Diversified Attention Network for Cross-Modal
Retrieval [10.420129873840578]
クロスモーダル検索は、画像、ビデオ、テキスト、オーディオなどのマルチメディアデータを組み合わせることで、柔軟な検索体験を実現することを目的としている。
教師なしアプローチのコアの1つは、高価なラベルを必要とすることなく、異なるオブジェクト表現間の相関関係を掘り下げて、満足度の高い検索性能を完成させることである。
教師なしクロスモーダル検索のためのグラフパターン損失に基づく分散注意ネットワーク(GPLDAN)を提案する。
論文 参考訳(メタデータ) (2021-06-25T10:53:07Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。