論文の概要: Multi-queue Momentum Contrast for Microvideo-Product Retrieval
- arxiv url: http://arxiv.org/abs/2212.11471v1
- Date: Thu, 22 Dec 2022 03:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:10:32.433262
- Title: Multi-queue Momentum Contrast for Microvideo-Product Retrieval
- Title(参考訳): マイクロビデオ生成検索のためのマルチキューモーメントコントラスト
- Authors: Yali Du, Yinwei Wei, Wei Ji, Fan Liu, Xin Luo and Liqiang Nie
- Abstract要約: マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
- 参考スコア(独自算出の注目度): 57.527227171945796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The booming development and huge market of micro-videos bring new e-commerce
channels for merchants. Currently, more micro-video publishers prefer to embed
relevant ads into their micro-videos, which not only provides them with
business income but helps the audiences to discover their interesting products.
However, due to the micro-video recording by unprofessional equipment,
involving various topics and including multiple modalities, it is challenging
to locate the products related to micro-videos efficiently, appropriately, and
accurately. We formulate the microvideo-product retrieval task, which is the
first attempt to explore the retrieval between the multi-modal and multi-modal
instances.
A novel approach named Multi-Queue Momentum Contrast (MQMC) network is
proposed for bidirectional retrieval, consisting of the uni-modal feature and
multi-modal instance representation learning. Moreover, a discriminative
selection strategy with a multi-queue is used to distinguish the importance of
different negatives based on their categories. We collect two large-scale
microvideo-product datasets (MVS and MVS-large) for evaluation and manually
construct the hierarchical category ontology, which covers sundry products in
daily life. Extensive experiments show that MQMC outperforms the
state-of-the-art baselines. Our replication package (including code, dataset,
etc.) is publicly available at https://github.com/duyali2000/MQMC.
- Abstract(参考訳): マイクロビデオの急成長と巨大な市場は、商人に新しいeコマースチャネルをもたらす。
現在、多くのマイクロビデオパブリッシャーは、関連広告を自分のマイクロビデオに埋め込むことを好んでいる。
しかし、様々な話題や複数のモダリティを含む非専門機器によるマイクロビデオ記録により、マイクロビデオに関連する製品を効率よく、適切に、正確に見つけることは困難である。
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
マルチキューモーメントコントラスト(MQMC)ネットワークという新しい手法が,一様特徴と多モードインスタンス表現学習からなる双方向検索のために提案されている。
さらに,マルチキューを用いた判別的選択戦略を用いて,カテゴリー別に異なる否定の重要度を識別する。
本研究では,2つの大規模マイクロビデオ製品データセット(MVSとMVS-large)を収集し,日干し製品を対象とした階層的カテゴリーオントロジーを手作業で構築する。
MQMCは最先端のベースラインよりも優れています。
私たちのレプリケーションパッケージ(コード、データセットなど)はhttps://github.com/duyali2000/MQMCで公開されています。
関連論文リスト
- Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval [32.478352606125306]
そこで本研究では,営業担当者の音声コンテンツを活用したテキスト誘導型アテンション機構を提案する。
長距離時間グラフネットワークは、インスタンスレベルの相互作用とフレームレベルのマッチングの両方を達成するように設計されている。
提案するSGMNモデルの優れた性能を実証し,最先端の手法をかなり上回る性能を示した。
論文 参考訳(メタデータ) (2024-07-23T07:36:54Z) - Cross-view Semantic Alignment for Livestreaming Product Recognition [24.38606354376169]
LPR4Mは34のカテゴリをカバーする大規模マルチモーダルデータセットである。
LPR4Mは様々なビデオとノイズモードのペアを含み、長い尾の分布を示す。
クロスビューパッチ間のセマンティックなミスアライメントをペナルティ化するために、新しいパッチ特徴再構成損失を提案する。
論文 参考訳(メタデータ) (2023-08-09T12:23:41Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Fashion Focus: Multi-modal Retrieval System for Video Commodity
Localization in E-commerce [18.651201334846352]
ファッションフォーカス(Fashion Focus)と呼ばれるマルチモーダル検索システムの革新的実証について述べる。
オンラインビデオのプロダクトイメージを、焦点として正確にローカライズすることができる。
本システムでは,ビデオコンテンツ構造化とマルチモーダル検索という2つの手法を用いて,高精度なビデオ・ツー・ショップマッチングを実現する。
論文 参考訳(メタデータ) (2021-02-09T09:45:04Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z) - Predicting the Popularity of Micro-videos with Multimodal Variational
Encoder-Decoder Framework [54.194340961353944]
マイクロビデオ人気タスクのためのマルチモーダル変分エンコーダ・デコーダフレームワークを提案する。
MMVEDは、その人気レベルに情報を与えるマイクロビデオの埋め込みを学習する。
Xiguaから収集した公開データセットとデータセットで実施された実験は、提案したMMVEDフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-28T06:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。