論文の概要: UIGR: Unified Interactive Garment Retrieval
- arxiv url: http://arxiv.org/abs/2204.03111v1
- Date: Wed, 6 Apr 2022 21:54:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-09 07:12:05.157572
- Title: UIGR: Unified Interactive Garment Retrieval
- Title(参考訳): UIGR: 統一されたインタラクティブガーメント検索
- Authors: Xiao Han, Sen He, Li Zhang, Yi-Zhe Song, Tao Xiang
- Abstract要約: 対話型衣服検索(IGR)は、基準衣服画像に基づいて対象衣服画像を検索することを目的としている。
テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。
本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 105.56179829647142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive garment retrieval (IGR) aims to retrieve a target garment image
based on a reference garment image along with user feedback on what to change
on the reference garment. Two IGR tasks have been studied extensively:
text-guided garment retrieval (TGR) and visually compatible garment retrieval
(VCR). The user feedback for the former indicates what semantic attributes to
change with the garment category preserved, while the category is the only
thing to be changed explicitly for the latter, with an implicit requirement on
style preservation. Despite the similarity between these two tasks and the
practical need for an efficient system tackling both, they have never been
unified and modeled jointly. In this paper, we propose a Unified Interactive
Garment Retrieval (UIGR) framework to unify TGR and VCR. To this end, we first
contribute a large-scale benchmark suited for both problems. We further propose
a strong baseline architecture to integrate TGR and VCR in one model. Extensive
experiments suggest that unifying two tasks in one framework is not only more
efficient by requiring a single model only, it also leads to better
performance. Code and datasets are available at
https://github.com/BrandonHanx/CompFashion.
- Abstract(参考訳): 対話型衣料検索(IGR)は,参照衣料画像に基づいて対象の衣料画像を検索し,参照衣料に何を変更するかというユーザのフィードバックを得る。
テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。
前者のユーザフィードバックは、衣料品カテゴリーを保存して変更すべき意味的属性を示し、後者について明示的に変更すべきのはカテゴリのみであり、スタイル保存には暗黙の要件がある。
これら2つのタスクの類似性と、両方に取り組む効率的なシステムの実現の必要性にもかかわらず、これらは統一され、共同でモデル化されることはなかった。
本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。
この目的のために、我々はまず両方の問題に合った大規模なベンチマークを提出する。
さらに,TGRとVCRを一つのモデルに統合する強力なベースラインアーキテクチャを提案する。
広範な実験により、1つのフレームワークで2つのタスクを統合することは、1つのモデルのみを必要とすることで効率が向上するだけでなく、パフォーマンスも向上することが示唆された。
コードとデータセットはhttps://github.com/BrandonHanx/CompFashion.comで入手できる。
関連論文リスト
- VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Don't Forget to Connect! Improving RAG with Graph-based Reranking [26.433218248189867]
本稿では,グラフニューラルネットワーク(GNN)に基づくリランカであるG-RAGについて紹介する。
提案手法は,文書と意味情報の相互接続(抽象表現平均グラフ)を組み合わせ,RAGの文脈インフォームドローダを提供する。
G-RAGは計算フットプリントを小さくしながら最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2024-05-28T17:56:46Z) - Pair then Relation: Pair-Net for Panoptic Scene Graph Generation [54.92476119356985]
Panoptic Scene Graph (PSG) は、ボックスの代わりにパン光学セグメンテーションを使用して、より包括的なシーングラフ表現を作成することを目的としている。
現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。
Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて、対象と対象間の疎対関係を学習・フィルタリングする。
論文 参考訳(メタデータ) (2023-07-17T17:58:37Z) - Learning Granularity-Unified Representations for Text-to-Image Person
Re-identification [29.04254233799353]
ReID(text-to-image person re-identification)は、関心のある人物の歩行者イメージをテキスト記述で検索することを目的としている。
現存する作品は、通常、2つのモード間の特徴の粒度の違いを無視する。
本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-16T01:26:10Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Cloth-Changing Person Re-identification from A Single Image with Gait
Prediction and Regularization [65.50321170655225]
本稿では,画像レイドモデルを用いて布非依存表現を学習するための補助タスクとして,歩行認識を導入する。
画像ベースのCloth-Changing ReIDベンチマーク(例えば、LTCC、PRCC、Real28、VC-Clothes)の実験は、GI-ReIDが最先端技術に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2021-03-29T12:10:50Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。