Fugu-MT 論文翻訳(概要): Main Product Detection with Graph Networks for Fashion

論文の概要: Main Product Detection with Graph Networks for Fashion

arxiv url: http://arxiv.org/abs/2201.10431v1
Date: Tue, 25 Jan 2022 16:26:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-26 15:36:46.846068
Title: Main Product Detection with Graph Networks for Fashion
Title（参考訳）: ファッションのためのグラフネットワークによる主要製品検出
Authors: Vacit Oguz Yazici, Longlong Yu, Arnau Ramisa, Luis Herranz, Joost van de Weijer
Abstract要約: 主要製品検出は、ビジョンベースのファッション製品フィード解析パイプラインの重要なステップである。グラフ畳み込みネットワーク(GCN)を組み込んだモデルを提案する。
参考スコア（独自算出の注目度）: 44.09686303429833
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computer vision has established a foothold in the online fashion retail industry. Main product detection is a crucial step of vision-based fashion product feed parsing pipelines, focused in identifying the bounding boxes that contain the product being sold in the gallery of images of the product page. The current state-of-the-art approach does not leverage the relations between regions in the image, and treats images of the same product independently, therefore not fully exploiting visual and product contextual information. In this paper we propose a model that incorporates Graph Convolutional Networks (GCN) that jointly represent all detected bounding boxes in the gallery as nodes. We show that the proposed method is better than the state-of-the-art, especially, when we consider the scenario where title-input is missing at inference time and for cross-dataset evaluation, our method outperforms previous approaches by a large margin.
Abstract（参考訳）: コンピュータビジョンはオンラインファッション小売業界に足場を築いた。主要製品検出は、製品ページの画像ギャラリーで販売されている製品を含むバウンディングボックスを特定することに焦点を当てた、ビジョンベースのファッション製品フィード解析パイプラインの重要なステップである。現在の最先端のアプローチでは、画像内の領域間の関係を利用せず、同じ製品のイメージを独立して扱うため、視覚的および製品的コンテキスト情報を完全に活用することができない。本稿では,グラフ畳み込みネットワーク(GCN)を組み込んだモデルを提案する。提案手法は最先端の手法よりも優れており,特に推測時にタイトル入力が欠落し,データセット横断評価を行うシナリオを考えると,従来の手法を大きく上回っている。

関連論文リスト

DreamPainter: Image Background Inpainting for E-commerce Scenarios [9.12444106077783]
我々はDreamPainterを紹介した。DreamPainterはテキストプロンプトと参照画像情報を付加的な制御信号として組み込む新しいフレームワークである。提案手法は,テキストプロンプトと参照画像情報の両方を効果的に統合しつつ,高い製品一貫性を維持しながら,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-08-04T07:54:37Z)
Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models [1.8606057023042066]
本稿では,テキスト・ツー・イメージ拡散モデルと新しいデータ拡張パイプラインを用いた高忠実度製品画像再構成のためのフレームワークを提案する。本手法は,生成画像の品質と多様性を,製品表現を分離し,モデルによる製品特性の理解を深めることによって改善する。
論文参考訳（メタデータ） (2025-03-11T01:24:39Z)
Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文参考訳（メタデータ） (2024-12-19T05:02:30Z)
See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文参考訳（メタデータ） (2024-09-29T06:21:05Z)
Training-Free Style Consistent Image Synthesis with Condition and Mask Guidance in E-Commerce [13.67619785783182]
我々は、UNetと画像条件を統合する際に、注意マップ(自己注意と横断注意)の修正を参照して、QKVレベルの概念を導入する。我々は、共有KVを用いて、交差注意における類似性を高め、注目マップからマスクガイダンスを生成し、スタイル一貫性画像の生成を巧みに指示する。
論文参考訳（メタデータ） (2024-09-07T07:50:13Z)
A Multimodal Approach for Cross-Domain Image Retrieval [5.5547914920738]
クロスドメイン画像検索(Cross-Domain Image Retrieval, CDIR)は、コンピュータビジョンにおける課題である。本稿では、事前学習された視覚言語モデルを活用することで、テキストコンテキストを取り入れた新しい教師なしのCDIRアプローチを提案する。提案手法は,画像キャプションをドメインに依存しない中間表現として用いる。
論文参考訳（メタデータ） (2024-03-22T12:08:16Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All [4.191273360964305]
ディフューズ・トゥ・チョイス(Diffuse to Choose)は、高速推論と高忠実度詳細の保持を効率的にバランスさせる、拡散に基づく新しい塗布モデルである。 Diffuse to Chooseは既存のゼロショット拡散塗装法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-01-24T20:25:48Z)
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文参考訳（メタデータ） (2023-12-29T07:59:07Z)
UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文参考訳（メタデータ） (2023-12-11T18:59:55Z)
Mutual Query Network for Multi-Modal Product Image Segmentation [13.192334066413837]
本稿では,視覚的・言語的モダリティの両面から商品を分割する相互クエリネットワークを提案する。この分野での研究を促進するために,マルチモーダル製品データセット(MMPS)を構築した。提案手法は,MMPSの最先端手法よりも優れていた。
論文参考訳（メタデータ） (2023-06-26T03:18:38Z)
Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文参考訳（メタデータ） (2021-05-18T02:38:22Z)
Self-supervised Human Detection and Segmentation via Multi-view Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文参考訳（メタデータ） (2020-12-09T15:47:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。