論文の概要: Fashion Image Retrieval with Multi-Granular Alignment
- arxiv url: http://arxiv.org/abs/2302.08902v1
- Date: Thu, 16 Feb 2023 10:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:35:37.744624
- Title: Fashion Image Retrieval with Multi-Granular Alignment
- Title(参考訳): マルチグラニュラーアライメントを用いたファッション画像検索
- Authors: Jinkuan Zhu, Hao Huang, Qiao Deng
- Abstract要約: ファッション画像検索タスクは,ギャラリーから検索画像の関連する衣服を検索することを目的としている。
これまでのレシピでは、異なる距離に基づく損失関数の設計、関連するペアの接近、無関係なイメージの分離に重点を置いていた。
MGA(Multi-Granular Alignment)と呼ばれる大域的特徴ときめ細かな特徴を両立させる新しいファッション画像検索手法を提案する。
- 参考スコア(独自算出の注目度): 4.109124423081812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fashion image retrieval task aims to search relevant clothing items of a
query image from the gallery. The previous recipes focus on designing different
distance-based loss functions, pulling relevant pairs to be close and pushing
irrelevant images apart. However, these methods ignore fine-grained features
(e.g. neckband, cuff) of clothing images. In this paper, we propose a novel
fashion image retrieval method leveraging both global and fine-grained
features, dubbed Multi-Granular Alignment (MGA). Specifically, we design a
Fine-Granular Aggregator(FGA) to capture and aggregate detailed patterns. Then
we propose Attention-based Token Alignment (ATA) to align image features at the
multi-granular level in a coarse-to-fine manner. To prove the effectiveness of
our proposed method, we conduct experiments on two sub-tasks (In-Shop &
Consumer2Shop) of the public fashion datasets DeepFashion. The experimental
results show that our MGA outperforms the state-of-the-art methods by 3.1% and
0.6% in the two sub-tasks on the R@1 metric, respectively.
- Abstract(参考訳): ファッション画像検索タスクは,ギャラリーから検索画像の関連する衣服を検索することを目的としている。
以前のレシピでは、異なる距離ベースの損失関数の設計、関連したペアの近接化、無関係なイメージの分離に重点を置いていた。
しかし、これらの手法は、衣服画像のきめ細かい特徴(ネックバンド、カフなど)を無視している。
本稿では,MGA(Multi-Granular Alignment)と呼ばれる,グローバルかつきめ細かな特徴を活かした新しいファッション画像検索手法を提案する。
具体的には,FGA(Fin-Granular Aggregator)を設計し,詳細なパターンを抽出・集約する。
そこで我々は,多粒度画像の特徴を粗い方法で整列させるために,注意に基づくトークンアライメント(ATA)を提案する。
提案手法の有効性を証明するため,パブリックファッションデータセットであるDeepFashionの2つのサブタスク(In-ShopとConsumer2Shop)について実験を行った。
実験の結果,我々のMGAはR@1の2つのサブタスクにおいて,最先端の手法よりも3.1%,0.6%優れていた。
関連論文リスト
- Improving Diffusion Models for Virtual Try-on [57.893391816847405]
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
IDM-VTONと呼ばれる本手法は,2つの異なるモジュールを用いて衣料画像の意味を符号化する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Weakly-Supervised Conditional Embedding for Referred Visual Search [20.810710415092974]
本稿では、ユーザが望む類似性を定義するための追加情報を提供するReferred Visual Search(RVS)の概念を紹介する。
LAIONから抽出した842K画像と272Kのファッション製品からなる新しいデータセットLAION-RVS-Fashionを提案する。
弱い教師付きトレーニングを用いて条件付き埋め込みを学習する革新的な手法を提案し,2Mインタプリタを持つギャラリーに対して,リコールを1回(R@1)で6%増加させる方法を提案する。
論文 参考訳(メタデータ) (2023-06-05T14:45:38Z) - TriPINet: Tripartite Progressive Integration Network for Image
Manipulation Localization [3.7359400978194675]
本稿では,3部構成のプログレッシブ統合ネットワーク(TriPINet)を提案する。
我々は,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発した。
本手法と最先端画像鑑定法との比較のために, 大規模な実験を行った。
論文 参考訳(メタデータ) (2022-12-25T02:27:58Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Exploring the Interactive Guidance for Unified and Effective Image
Matting [16.933897631478146]
そこで我々はUIMという名前のUnified Interactive Image Matting法を提案する。
具体的には、UIMは複数のタイプのユーザインタラクションを活用して、複数のマッチングターゲットの曖昧さを回避する。
UIMは,コンポジション1Kテストセットと合成統合データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-17T13:20:30Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Mask guided attention for fine-grained patchy image classification [22.91753200323264]
きめ細かいパッチ画像分類のためのマスク誘導注意法(MGA)を提案する。
提案手法の有効性を3つの公開パッチ画像データセットで検証する。
我々のアブレーション研究は、MGAがSoyCultivarVeinおよびBtfPISデータセットの精度を2.25%、2%向上させることを示している。
論文 参考訳(メタデータ) (2021-02-04T17:54:50Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Where to Look and How to Describe: Fashion Image Retrieval with an
Attentional Heterogeneous Bilinear Network [50.19558726384559]
画像に基づくファッション商品検索のための生物学的にインスパイアされたフレームワークを提案する。
提案フレームワークは,3つの画像に基づくファッション製品検索ベンチマークにおいて,満足な性能を実現する。
論文 参考訳(メタデータ) (2020-10-26T06:01:09Z) - Devil's in the Details: Aligning Visual Clues for Conditional Embedding
in Person Re-Identification [94.77172127405846]
歩行者画像の詳細な情報をよりよく活用するための2つの重要な認識パターンを提案する。
CACE-Netは3つの公開データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-11T06:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。