Fugu-MT 論文翻訳(概要): Unposed: Unsupervised Pose Estimation based Product Image Recommendations

論文の概要: Unposed: Unsupervised Pose Estimation based Product Image Recommendations

arxiv url: http://arxiv.org/abs/2301.07879v1
Date: Thu, 19 Jan 2023 05:02:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-20 15:45:57.407072
Title: Unposed: Unsupervised Pose Estimation based Product Image Recommendations
Title（参考訳）: unposed: プロダクトイメージレコメンデーションに基づく教師なしポーズ推定
Authors: Saurabh Sharma, Faizan Ahemad
Abstract要約: そこで本研究では,不在者に対する製品のイメージセットをスキャンするためのヒューマン・ポース検出に基づく教師なし手法を提案する。教師なしのアプローチは、いかなるバイアスにも拘わらず、製品とカテゴリーに基づいて販売者に対して公平なアプローチを示唆している。 200の製品を手動で調査し,その大部分に1回の反復画像や欠落画像があり,その中から3K製品(20K画像)を採取した。
参考スコア（独自算出の注目度）: 4.467248776406006
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Product images are the most impressing medium of customer interaction on the product detail pages of e-commerce websites. Millions of products are onboarded on to webstore catalogues daily and maintaining a high quality bar for a product's set of images is a problem at scale. Grouping products by categories, clothing is a very high volume and high velocity category and thus deserves its own attention. Given the scale it is challenging to monitor the completeness of image set, which adequately details the product for the consumers, which in turn often leads to a poor customer experience and thus customer drop off. To supervise the quality and completeness of the images in the product pages for these product types and suggest improvements, we propose a Human Pose Detection based unsupervised method to scan the image set of a product for the missing ones. The unsupervised approach suggests a fair approach to sellers based on product and category irrespective of any biases. We first create a reference image set of popular products with wholesome imageset. Then we create clusters of images to label most desirable poses to form the classes for the reference set from these ideal products set. Further, for all test products we scan the images for all desired pose classes w.r.t. reference set poses, determine the missing ones and sort them in the order of potential impact. These missing poses can further be used by the sellers to add enriched product listing image. We gathered data from popular online webstore and surveyed ~200 products manually, a large fraction of which had at least 1 repeated image or missing variant, and sampled 3K products(~20K images) of which a significant proportion had scope for adding many image variants as compared to high rated products which had more than double image variants, indicating that our model can potentially be used on a large scale.
Abstract（参考訳）: 製品イメージは、eコマースウェブサイトの製品詳細ページで最も印象的な顧客インタラクションの媒体である。何百万もの製品が毎日Webストアカタログに載っていて、製品のイメージセットの高品質なバーを維持することは、大規模な問題です。カテゴリー別に分類すると、衣服は非常に高い体積と高い速度のカテゴリーであり、それ自体が注目に値する。スケールを考えると、イメージセットの完全性を監視することは困難であり、消費者の製品を適切に詳細化している。これらの製品に対して,製品ページ内の画像の品質と完全性を監視し,改善を提案するため,不備品のイメージセットをスキャンするヒューマン・ポーズ・インテリジェンスに基づく教師なしの手法を提案する。監督されていないアプローチは、いかなるバイアスにもよらず、商品やカテゴリーに基づいた販売者に対して公正なアプローチを示唆する。まず、人気商品の参照イメージセットを、全体像セットで作成する。次に、最も望ましいポーズをラベル付けするイメージのクラスタを作成し、これらの理想的な製品セットから参照セットのクラスを形成します。さらに、すべてのテスト製品では、望ましいポーズクラスの全イメージをスキャンし、w.r.t.参照セットがポーズし、行方不明のものを特定し、潜在的な影響順にソートします。これらの欠落したポーズは、売り手が強化された商品一覧画像を追加するためにさらに使用できる。人気オンラインwebストアのデータを収集し,200以上の製品を手作業で調査した。その大部分は,少なくとも1つの反復的なイメージや欠落したイメージを持つ3k製品(~20kイメージ)をサンプリングした。

関連論文リスト

CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-02-05T09:06:02Z)
An Evaluation Framework for Product Images Background Inpainting based on Human Feedback and Product Consistency [4.177224329586615]
製品広告アプリケーションでは、プロダクトイメージにおけるAI技術を活用した背景の自動塗り絵が重要なタスクとして現れている。 HFPC(Human Feedback and Product Consistency)は、2つのモジュールに基づいて生成した製品イメージを自動的に評価する。 HFPCは、他のオープンソースのビジュアル品質評価モデルと比較して、最先端(96.4%の精度)を実現している。
論文参考訳（メタデータ） (2024-12-23T12:03:35Z)
Low-Biased General Annotated Dataset Generation [62.04202037186855]
低バイアスの一般アノテーション付きデータセット生成フレームワーク(lbGen)を提案する。高価な手作業による収集ではなく,カテゴリアノテーションを用いた低バイアス画像を直接生成することを目的としている。実験結果から,手動ラベル付きデータセットや他の合成データセットと比較して,生成した低バイアスデータセットの利用により,一般化能力の安定が図られた。
論文参考訳（メタデータ） (2024-12-14T13:28:40Z)
Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文参考訳（メタデータ） (2024-09-23T12:28:40Z)
Transformer-empowered Multi-modal Item Embedding for Enhanced Image Search in E-Commerce [20.921870288665627]
マルチモーダルアイテム埋め込みモデル(MIEM)は、製品に関するテキスト情報と複数の画像の両方を利用して、意味のある製品機能を構築することができる。 MIEMはShopeeイメージ検索プラットフォームの一部となっている。
論文参考訳（メタデータ） (2023-11-29T08:09:50Z)
Behavior Optimized Image Generation [69.9906601767728]
本稿では,画像内容とユーザ行動の両方を理解するBoigLLMを提案する。本稿では, この課題において, BoigLLM が GPT-3.5 や GPT-4 などの 13 倍のモデルより優れていることを示す。 BoigBenchは1億6800万件の企業ツイートをメディア、ブランド名、投稿時間、合計などのベンチマークデータセットです。
論文参考訳（メタデータ） (2023-11-18T07:07:38Z)
Product Review Image Ranking for Fashion E-commerce [0.0]
当社のネットワークは、高品質の画像よりも品質の悪い画像をランク付けするようにトレーニングしています。提案手法は,2つの指標,すなわち相関係数と精度のベースラインモデルに対して,かなりのマージンで性能を向上する。
論文参考訳（メタデータ） (2023-08-10T07:09:13Z)
Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。 2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文参考訳（メタデータ） (2022-06-26T23:38:42Z)
Weakly Supervised High-Fidelity Clothing Model Generation [67.32235668920192]
本稿では,このシナリオに対応するために,DGP (Deep Generative Projection) と呼ばれる安価でスケーラブルな弱教師付き手法を提案する。衣服と身体の粗いアライメントをStyleGAN空間に投影することで、フォトリアリスティックな着用結果が得られることを示す。
論文参考訳（メタデータ） (2021-12-14T07:15:15Z)
An Automatic Image Content Retrieval Method for better Mobile Device Display User Experiences [91.3755431537592]
モバイル端末向け画像コンテンツ検索と分類のための新しいモバイルアプリケーションを提案する。このアプリケーションは何千もの写真で実行され、モバイルディスプレイでより良いユーザー視覚体験を実現するための励ましの成果を見せた。
論文参考訳（メタデータ） (2021-08-26T23:44:34Z)
eProduct: A Million-Scale Visual Search Benchmark to Address Product Recognition Challenges [8.204924070199866]
eProductは、実世界のさまざまなビジュアル検索ソリューションのトレーニングと評価のためのベンチマークデータセットである。本稿では,eProductをトレーニングセットと評価セットとして提示し,トレーニングセットには1.3M+のタイトル付き画像と階層的カテゴリラベルが記載されている。本稿では,eProductの構成手順,多様性の分析,トレーニングしたベースラインモデルの性能について紹介する。
論文参考訳（メタデータ） (2021-07-13T05:28:34Z)
Vision-based Price Suggestion for Online Second-hand Items [40.42940050851797]
オンラインセカンドアイテムショッピングプラットフォームのためのビジョンベースの価格提案システムを提示します。ビジョンベースの価格提案の目的は、売り手がオンラインプラットフォームにアップロードされた画像で中古リストの効果的な価格を設定するのを助けることです。
論文参考訳（メタデータ） (2020-12-10T22:56:29Z)
Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文参考訳（メタデータ） (2020-07-17T15:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。