論文の概要: Main Product Detection with Graph Networks for Fashion
- arxiv url: http://arxiv.org/abs/2201.10431v1
- Date: Tue, 25 Jan 2022 16:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 15:36:46.846068
- Title: Main Product Detection with Graph Networks for Fashion
- Title(参考訳): ファッションのためのグラフネットワークによる主要製品検出
- Authors: Vacit Oguz Yazici, Longlong Yu, Arnau Ramisa, Luis Herranz, Joost van
de Weijer
- Abstract要約: 主要製品検出は、ビジョンベースのファッション製品フィード解析パイプラインの重要なステップである。
グラフ畳み込みネットワーク(GCN)を組み込んだモデルを提案する。
- 参考スコア(独自算出の注目度): 44.09686303429833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision has established a foothold in the online fashion retail
industry. Main product detection is a crucial step of vision-based fashion
product feed parsing pipelines, focused in identifying the bounding boxes that
contain the product being sold in the gallery of images of the product page.
The current state-of-the-art approach does not leverage the relations between
regions in the image, and treats images of the same product independently,
therefore not fully exploiting visual and product contextual information. In
this paper we propose a model that incorporates Graph Convolutional Networks
(GCN) that jointly represent all detected bounding boxes in the gallery as
nodes. We show that the proposed method is better than the state-of-the-art,
especially, when we consider the scenario where title-input is missing at
inference time and for cross-dataset evaluation, our method outperforms
previous approaches by a large margin.
- Abstract(参考訳): コンピュータビジョンはオンラインファッション小売業界に足場を築いた。
主要製品検出は、製品ページの画像ギャラリーで販売されている製品を含むバウンディングボックスを特定することに焦点を当てた、ビジョンベースのファッション製品フィード解析パイプラインの重要なステップである。
現在の最先端のアプローチでは、画像内の領域間の関係を利用せず、同じ製品のイメージを独立して扱うため、視覚的および製品的コンテキスト情報を完全に活用することができない。
本稿では,グラフ畳み込みネットワーク(GCN)を組み込んだモデルを提案する。
提案手法は最先端の手法よりも優れており,特に推測時にタイトル入力が欠落し,データセット横断評価を行うシナリオを考えると,従来の手法を大きく上回っている。
関連論文リスト
- Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent
Diffusion Models for Virtual Try-All [4.191273360964305]
ディフューズ・トゥ・チョイス(Diffuse to Choose)は、高速推論と高忠実度詳細の保持を効率的にバランスさせる、拡散に基づく新しい塗布モデルである。
Diffuse to Chooseは既存のゼロショット拡散塗装法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-24T20:25:48Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Image-Based Virtual Try-On: A Survey [40.55428225199453]
画像ベースの仮想試着は、自然に着飾った人物画像を衣服のイメージで合成することを目的としており、オンラインショッピングに革命をもたらす。
本稿では,パイプラインアーキテクチャ,人物表現,トライオン表示などの重要なモジュールの側面において,最先端技術と方法論を包括的に分析する。
CLIPを用いた新しいセマンティックな基準を提案し、同じデータセット上で一様に実装された評価指標を用いて代表的手法を評価する。
論文 参考訳(メタデータ) (2023-11-08T16:34:18Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Mutual Query Network for Multi-Modal Product Image Segmentation [13.192334066413837]
本稿では,視覚的・言語的モダリティの両面から商品を分割する相互クエリネットワークを提案する。
この分野での研究を促進するために,マルチモーダル製品データセット(MMPS)を構築した。
提案手法は,MMPSの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-26T03:18:38Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。