Fugu-MT 論文翻訳(概要): UIGR: Unified Interactive Garment Retrieval

論文の概要: UIGR: Unified Interactive Garment Retrieval

arxiv url: http://arxiv.org/abs/2204.03111v1
Date: Wed, 6 Apr 2022 21:54:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-09 07:12:05.157572
Title: UIGR: Unified Interactive Garment Retrieval
Title（参考訳）: UIGR: 統一されたインタラクティブガーメント検索
Authors: Xiao Han, Sen He, Li Zhang, Yi-Zhe Song, Tao Xiang
Abstract要約: 対話型衣服検索(IGR)は、基準衣服画像に基づいて対象衣服画像を検索することを目的としている。テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。
参考スコア（独自算出の注目度）: 105.56179829647142
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interactive garment retrieval (IGR) aims to retrieve a target garment image based on a reference garment image along with user feedback on what to change on the reference garment. Two IGR tasks have been studied extensively: text-guided garment retrieval (TGR) and visually compatible garment retrieval (VCR). The user feedback for the former indicates what semantic attributes to change with the garment category preserved, while the category is the only thing to be changed explicitly for the latter, with an implicit requirement on style preservation. Despite the similarity between these two tasks and the practical need for an efficient system tackling both, they have never been unified and modeled jointly. In this paper, we propose a Unified Interactive Garment Retrieval (UIGR) framework to unify TGR and VCR. To this end, we first contribute a large-scale benchmark suited for both problems. We further propose a strong baseline architecture to integrate TGR and VCR in one model. Extensive experiments suggest that unifying two tasks in one framework is not only more efficient by requiring a single model only, it also leads to better performance. Code and datasets are available at https://github.com/BrandonHanx/CompFashion.
Abstract（参考訳）: 対話型衣料検索(IGR)は,参照衣料画像に基づいて対象の衣料画像を検索し,参照衣料に何を変更するかというユーザのフィードバックを得る。テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。前者のユーザフィードバックは、衣料品カテゴリーを保存して変更すべき意味的属性を示し、後者について明示的に変更すべきのはカテゴリのみであり、スタイル保存には暗黙の要件がある。これら2つのタスクの類似性と、両方に取り組む効率的なシステムの実現の必要性にもかかわらず、これらは統一され、共同でモデル化されることはなかった。本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。この目的のために、我々はまず両方の問題に合った大規模なベンチマークを提出する。さらに,TGRとVCRを一つのモデルに統合する強力なベースラインアーキテクチャを提案する。広範な実験により、1つのフレームワークで2つのタスクを統合することは、1つのモデルのみを必要とすることで効率が向上するだけでなく、パフォーマンスも向上することが示唆された。コードとデータセットはhttps://github.com/BrandonHanx/CompFashion.comで入手できる。

関連論文リスト

RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision [43.50113345998687]
RAG-Gymは、情報検索エージェントを、各検索ステップにおけるきめ細かいプロセス管理によって強化する統合最適化フレームワークである。また、RAG-Gymフレームワーク内での応答推論と検索クエリ生成を相乗化する新しいエージェントアーキテクチャであるReSearchを提案する。
論文参考訳（メタデータ） (2025-02-19T18:56:03Z)
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文参考訳（メタデータ） (2024-10-14T15:04:18Z)
Don't Forget to Connect! Improving RAG with Graph-based Reranking [26.433218248189867]
本稿では,グラフニューラルネットワーク(GNN)に基づくリランカであるG-RAGについて紹介する。提案手法は,文書と意味情報の相互接続(抽象表現平均グラフ)を組み合わせ,RAGの文脈インフォームドローダを提供する。 G-RAGは計算フットプリントを小さくしながら最先端のアプローチより優れている。
論文参考訳（メタデータ） (2024-05-28T17:56:46Z)
Pair then Relation: Pair-Net for Panoptic Scene Graph Generation [54.92476119356985]
Panoptic Scene Graph (PSG) は、ボックスの代わりにパン光学セグメンテーションを使用して、より包括的なシーングラフ表現を作成することを目的としている。現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。 Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて、対象と対象間の疎対関係を学習・フィルタリングする。
論文参考訳（メタデータ） (2023-07-17T17:58:37Z)
Learning Granularity-Unified Representations for Text-to-Image Person Re-identification [29.04254233799353]
ReID(text-to-image person re-identification)は、関心のある人物の歩行者イメージをテキスト記述で検索することを目的としている。現存する作品は、通常、2つのモード間の特徴の粒度の違いを無視する。本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-16T01:26:10Z)
Fashionformer: A simple, Effective and Unified Baseline for Human Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文参考訳（メタデータ） (2022-04-10T11:11:10Z)
Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文参考訳（メタデータ） (2021-08-18T12:46:28Z)
Cloth-Changing Person Re-identification from A Single Image with Gait Prediction and Regularization [65.50321170655225]
本稿では,画像レイドモデルを用いて布非依存表現を学習するための補助タスクとして,歩行認識を導入する。画像ベースのCloth-Changing ReIDベンチマーク(例えば、LTCC、PRCC、Real28、VC-Clothes)の実験は、GI-ReIDが最先端技術に対して好適に動作することを示した。
論文参考訳（メタデータ） (2021-03-29T12:10:50Z)
Tasks Integrated Networks: Joint Detection and Retrieval for Image Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文参考訳（メタデータ） (2020-09-03T03:57:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。