論文の概要: Main Product Detection with Graph Networks for Fashion
- arxiv url: http://arxiv.org/abs/2201.10431v1
- Date: Tue, 25 Jan 2022 16:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 15:36:46.846068
- Title: Main Product Detection with Graph Networks for Fashion
- Title(参考訳): ファッションのためのグラフネットワークによる主要製品検出
- Authors: Vacit Oguz Yazici, Longlong Yu, Arnau Ramisa, Luis Herranz, Joost van
de Weijer
- Abstract要約: 主要製品検出は、ビジョンベースのファッション製品フィード解析パイプラインの重要なステップである。
グラフ畳み込みネットワーク(GCN)を組み込んだモデルを提案する。
- 参考スコア(独自算出の注目度): 44.09686303429833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision has established a foothold in the online fashion retail
industry. Main product detection is a crucial step of vision-based fashion
product feed parsing pipelines, focused in identifying the bounding boxes that
contain the product being sold in the gallery of images of the product page.
The current state-of-the-art approach does not leverage the relations between
regions in the image, and treats images of the same product independently,
therefore not fully exploiting visual and product contextual information. In
this paper we propose a model that incorporates Graph Convolutional Networks
(GCN) that jointly represent all detected bounding boxes in the gallery as
nodes. We show that the proposed method is better than the state-of-the-art,
especially, when we consider the scenario where title-input is missing at
inference time and for cross-dataset evaluation, our method outperforms
previous approaches by a large margin.
- Abstract(参考訳): コンピュータビジョンはオンラインファッション小売業界に足場を築いた。
主要製品検出は、製品ページの画像ギャラリーで販売されている製品を含むバウンディングボックスを特定することに焦点を当てた、ビジョンベースのファッション製品フィード解析パイプラインの重要なステップである。
現在の最先端のアプローチでは、画像内の領域間の関係を利用せず、同じ製品のイメージを独立して扱うため、視覚的および製品的コンテキスト情報を完全に活用することができない。
本稿では,グラフ畳み込みネットワーク(GCN)を組み込んだモデルを提案する。
提案手法は最先端の手法よりも優れており,特に推測時にタイトル入力が欠落し,データセット横断評価を行うシナリオを考えると,従来の手法を大きく上回っている。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Training-Free Style Consistent Image Synthesis with Condition and Mask Guidance in E-Commerce [13.67619785783182]
我々は、UNetと画像条件を統合する際に、注意マップ(自己注意と横断注意)の修正を参照して、QKVレベルの概念を導入する。
我々は、共有KVを用いて、交差注意における類似性を高め、注目マップからマスクガイダンスを生成し、スタイル一貫性画像の生成を巧みに指示する。
論文 参考訳(メタデータ) (2024-09-07T07:50:13Z) - A Multimodal Approach for Cross-Domain Image Retrieval [5.5547914920738]
クロスドメイン画像検索(Cross-Domain Image Retrieval, CDIR)は、コンピュータビジョンにおける課題である。
本稿では、事前学習された視覚言語モデルを活用することで、テキストコンテキストを取り入れた新しい教師なしのCDIRアプローチを提案する。
提案手法は,画像キャプションをドメインに依存しない中間表現として用いる。
論文 参考訳(メタデータ) (2024-03-22T12:08:16Z) - Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent
Diffusion Models for Virtual Try-All [4.191273360964305]
ディフューズ・トゥ・チョイス(Diffuse to Choose)は、高速推論と高忠実度詳細の保持を効率的にバランスさせる、拡散に基づく新しい塗布モデルである。
Diffuse to Chooseは既存のゼロショット拡散塗装法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-24T20:25:48Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Mutual Query Network for Multi-Modal Product Image Segmentation [13.192334066413837]
本稿では,視覚的・言語的モダリティの両面から商品を分割する相互クエリネットワークを提案する。
この分野での研究を促進するために,マルチモーダル製品データセット(MMPS)を構築した。
提案手法は,MMPSの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-26T03:18:38Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。