論文の概要: Mutual Query Network for Multi-Modal Product Image Segmentation
- arxiv url: http://arxiv.org/abs/2306.14399v1
- Date: Mon, 26 Jun 2023 03:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:04:41.403001
- Title: Mutual Query Network for Multi-Modal Product Image Segmentation
- Title(参考訳): マルチモーダル製品画像分割のための相互クエリネットワーク
- Authors: Yun Guo, Wei Feng, Zheng Zhang, Xiancong Ren, Yaoyu Li, Jingjing Lv,
Xin Zhu, Zhangang Lin, Jingping Shao
- Abstract要約: 本稿では,視覚的・言語的モダリティの両面から商品を分割する相互クエリネットワークを提案する。
この分野での研究を促進するために,マルチモーダル製品データセット(MMPS)を構築した。
提案手法は,MMPSの最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 13.192334066413837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product image segmentation is vital in e-commerce. Most existing methods
extract the product image foreground only based on the visual modality, making
it difficult to distinguish irrelevant products. As product titles contain
abundant appearance information and provide complementary cues for product
image segmentation, we propose a mutual query network to segment products based
on both visual and linguistic modalities. First, we design a language query
vision module to obtain the response of language description in image areas,
thus aligning the visual and linguistic representations across modalities.
Then, a vision query language module utilizes the correlation between visual
and linguistic modalities to filter the product title and effectively suppress
the content irrelevant to the vision in the title. To promote the research in
this field, we also construct a Multi-Modal Product Segmentation dataset
(MMPS), which contains 30,000 images and corresponding titles. The proposed
method significantly outperforms the state-of-the-art methods on MMPS.
- Abstract(参考訳): 製品イメージのセグメンテーションはeコマースにおいて不可欠である。
既存の方法のほとんどは、視覚的モダリティのみに基づいて製品イメージの前景を抽出するため、無関係な製品を見分けるのが困難である。
製品タイトルは外観情報を豊富に含み,製品イメージセグメンテーションの補完的手段を提供するため,視覚的・言語的両面から商品をセグメンテーションする相互クエリネットワークを提案する。
まず、画像領域における言語記述の応答を得るための言語クエリ視覚モジュールを設計し、モダリティ間の視覚的および言語的表現を整合させる。
そして、視覚クエリ言語モジュールは、視覚的モダリティと言語的モダリティの相関を利用して製品タイトルをフィルタリングし、タイトルのビジョンに関係のないコンテンツを効果的に抑制する。
この分野での研究を促進するために,3万枚の画像と対応するタイトルを含むMMPS(Multi-Modal Product Segmentation dataset)を構築した。
提案手法は,MMPSの最先端手法よりも優れていた。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - PAM: Understanding Product Images in Cross Product Category Attribute
Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。
視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。
フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文 参考訳(メタデータ) (2021-06-08T18:30:17Z) - Cross-Modal Progressive Comprehension for Referring Segmentation [89.58118962086851]
人間の行動を効果的に模倣するクロスモーダルプログレッシブ(CMPC)スキーム。
画像データの場合、CMPC-Iモジュールはまずエンティティと属性の単語を使用して、式によって考慮される可能性のあるすべての関連エンティティを知覚します。
ビデオデータの場合、CMPC-VモジュールはCMPC-Iに基づくアクションワードをさらに活用し、時間グラフ推論によるアクションキューと一致する正しいエンティティを強調します。
論文 参考訳(メタデータ) (2021-05-15T08:55:51Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。