論文の概要: MovingFashion: a Benchmark for the Video-to-Shop Challenge
- arxiv url: http://arxiv.org/abs/2110.02627v2
- Date: Fri, 8 Oct 2021 15:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 11:33:39.684937
- Title: MovingFashion: a Benchmark for the Video-to-Shop Challenge
- Title(参考訳): moveFashion: ビデオとショッピングの課題のベンチマーク
- Authors: Marco Godi, Christian Joppi, Geri Skenderi, Marco Cristani
- Abstract要約: e-fashionの最新のフロンティアは“Video-to-shop”だ。
この課題に対処した最初の公開データセットである movingFashion を紹介します。
このシナリオでは,SEAM Match-RCNNと呼ばれる,店舗イメージを検索するネットワークを提案する。
- 参考スコア(独自算出の注目度): 7.476574566298152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving clothes which are worn in social media videos (Instagram, TikTok)
is the latest frontier of e-fashion, referred to as "video-to-shop" in the
computer vision literature. In this paper we present MovingFashion, the first
publicly available dataset to cope with this challenge. MovingFashion is
composed of 14855 social videos, each one of them associated to e-commerce
"shop" images where the corresponding clothing items are clearly portrayed. In
addition, we present a network for retrieving the shop images in this scenario,
dubbed SEAM Match-RCNN. The model is trained by image-to-video domain
adaptation, allowing to use video sequences where only their association with a
shop image is given, eliminating the need of millions of annotated bounding
boxes. SEAM Match-RCNN builds an embedding, where an attention-based weighted
sum of few frames (10) of a social video is enough to individuate the correct
product within the first 5 retrieved items in a 14K+ shop element gallery with
an accuracy of 80%. This provides the best performance on MovingFashion,
comparing exhaustively against the related state-of-the-art approaches and
alternative baselines.
- Abstract(参考訳): ソーシャルメディアビデオ(Instagram、TikTok)で着用される衣服の回収は、コンピュータビジョン文学において「ビデオ・トゥ・ショップ」と呼ばれるeファッションの最新のフロンティアである。
本稿では,この課題に対処した最初の公開データセットであるMovingFashionを紹介する。
movingFashionは14855のソーシャルビデオで構成されており、それぞれが、対応する衣服が明確に描かれたEコマースの「ショップ」イメージと関連付けられている。
また,このシナリオにおいて,SEAM Match-RCNNと呼ばれる店舗イメージを検索するネットワークを提案する。
このモデルは、画像からビデオへのドメイン適応によってトレーニングされ、ショップイメージとのみ関連づけられたビデオシーケンスを使用でき、数百万の注釈付きバウンディングボックスが不要になる。
SEAM Match-RCNNは、ソーシャルビデオのアテンションベースの重み付け和(10)が、最初の5つの検索項目で正しい製品を80%の精度で14K以上のショップエレメントギャラリーに分割するのに十分である埋め込みを構築する。
これは、関連する最先端のアプローチと代替のベースラインとを徹底的に比較して、MovingFashionで最高のパフォーマンスを提供する。
関連論文リスト
- A Fair Ranking and New Model for Panoptic Scene Graph Generation [51.78798765130832]
Decoupled SceneFormer(DSFormer)は、既存のすべてのシーングラフモデルよりも優れた2段階モデルである。
基本設計原則として、DSFormerは被写体とオブジェクトマスクを直接特徴空間にエンコードする。
論文 参考訳(メタデータ) (2024-07-12T12:28:08Z) - Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文 参考訳(メタデータ) (2024-01-19T17:16:16Z) - DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion [63.179505586264014]
静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
そこで本手法では,人体と織物の両方の動きを収録した映像を合成する。
論文 参考訳(メタデータ) (2023-04-12T17:59:17Z) - Fashion Image Retrieval with Multi-Granular Alignment [4.109124423081812]
ファッション画像検索タスクは,ギャラリーから検索画像の関連する衣服を検索することを目的としている。
これまでのレシピでは、異なる距離に基づく損失関数の設計、関連するペアの接近、無関係なイメージの分離に重点を置いていた。
MGA(Multi-Granular Alignment)と呼ばれる大域的特徴ときめ細かな特徴を両立させる新しいファッション画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-02-16T10:43:31Z) - VISTA: Vision Transformer enhanced by U-Net and Image Colorfulness Frame
Filtration for Automatic Retail Checkout [0.7250756081498245]
ビデオシーケンスから個々のフレームをセグメント化し分類することを提案する。
セグメンテーション法は、統一された単一製品アイテムと手作業のセグメンテーションと、エントロピーマスキングからなる。
我々のベストシステムは、AIシティチャレンジ2022トラック4で3位を獲得し、F1スコアは0.4545である。
論文 参考訳(メタデータ) (2022-04-23T08:54:28Z) - Domain Adaptation in Multi-View Embedding for Cross-Modal Video
Retrieval [40.39759491278582]
カプセル化されていないビデオシーケンスのギャラリーを考慮に入れ, 未知のテキストクエリとの関連性に基づいて, ビデオ検索の課題を考察する。
アノテーションの欠如を補うため、私たちは、ソースギャラリーと呼ばれるビデオキャプチャーペアからなる関連ビデオギャラリーに頼る。
擬似ラベリング対象ビデオとクロスドメイン(すなわちソースターゲット)ランキングを用いた新しい反復的ドメインアライメント手法を提案する。
論文 参考訳(メタデータ) (2021-10-25T11:22:49Z) - Neural Fashion Image Captioning : Accounting for Data Diversity [0.0]
本論文はファッション画像のキャプションを初めて行う手法の1つである。
InFashAIv1データセットには、約16万のアフリカのファッションアイテムイメージとそのタイトル、価格、一般的な説明が含まれている。
両データセットでモデルを共同でトレーニングすることで,アフリカ風のファッションイメージの品質キャプションが向上することを示す。
論文 参考訳(メタデータ) (2021-06-23T04:39:26Z) - Image-based Virtual Fitting Room [5.88473857873251]
まずMask R-CNNを用いて、異なるファッションアイテムの領域を抽出し、選択したファッションアイテムのスタイルを変更するためにNeural Style Transferを用いた。
8つのモデルと最高のモデルは、68.72% mAP、0.2% ASDRで、定量的および定性的にベースラインモデルを大幅に上回った。
論文 参考訳(メタデータ) (2021-04-08T22:53:08Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。