Fugu-MT 論文翻訳(概要): Fashion Image Retrieval with Multi-Granular Alignment

論文の概要: Fashion Image Retrieval with Multi-Granular Alignment

arxiv url: http://arxiv.org/abs/2302.08902v1
Date: Thu, 16 Feb 2023 10:43:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-20 14:35:37.744624
Title: Fashion Image Retrieval with Multi-Granular Alignment
Title（参考訳）: マルチグラニュラーアライメントを用いたファッション画像検索
Authors: Jinkuan Zhu, Hao Huang, Qiao Deng
Abstract要約: ファッション画像検索タスクは,ギャラリーから検索画像の関連する衣服を検索することを目的としている。これまでのレシピでは、異なる距離に基づく損失関数の設計、関連するペアの接近、無関係なイメージの分離に重点を置いていた。 MGA(Multi-Granular Alignment)と呼ばれる大域的特徴ときめ細かな特徴を両立させる新しいファッション画像検索手法を提案する。
参考スコア（独自算出の注目度）: 4.109124423081812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fashion image retrieval task aims to search relevant clothing items of a query image from the gallery. The previous recipes focus on designing different distance-based loss functions, pulling relevant pairs to be close and pushing irrelevant images apart. However, these methods ignore fine-grained features (e.g. neckband, cuff) of clothing images. In this paper, we propose a novel fashion image retrieval method leveraging both global and fine-grained features, dubbed Multi-Granular Alignment (MGA). Specifically, we design a Fine-Granular Aggregator(FGA) to capture and aggregate detailed patterns. Then we propose Attention-based Token Alignment (ATA) to align image features at the multi-granular level in a coarse-to-fine manner. To prove the effectiveness of our proposed method, we conduct experiments on two sub-tasks (In-Shop & Consumer2Shop) of the public fashion datasets DeepFashion. The experimental results show that our MGA outperforms the state-of-the-art methods by 3.1% and 0.6% in the two sub-tasks on the R@1 metric, respectively.
Abstract（参考訳）: ファッション画像検索タスクは,ギャラリーから検索画像の関連する衣服を検索することを目的としている。以前のレシピでは、異なる距離ベースの損失関数の設計、関連したペアの近接化、無関係なイメージの分離に重点を置いていた。しかし、これらの手法は、衣服画像のきめ細かい特徴(ネックバンド、カフなど)を無視している。本稿では,MGA(Multi-Granular Alignment)と呼ばれる,グローバルかつきめ細かな特徴を活かした新しいファッション画像検索手法を提案する。具体的には,FGA(Fin-Granular Aggregator)を設計し,詳細なパターンを抽出・集約する。そこで我々は,多粒度画像の特徴を粗い方法で整列させるために,注意に基づくトークンアライメント(ATA)を提案する。提案手法の有効性を証明するため,パブリックファッションデータセットであるDeepFashionの2つのサブタスク(In-ShopとConsumer2Shop)について実験を行った。実験の結果,我々のMGAはR@1の2つのサブタスクにおいて,最先端の手法よりも3.1%,0.6%優れていた。

関連論文リスト

MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文参考訳（メタデータ） (2024-05-01T11:04:22Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文参考訳（メタデータ） (2024-02-27T06:11:54Z)
TriPINet: Tripartite Progressive Integration Network for Image Manipulation Localization [3.7359400978194675]
本稿では,3部構成のプログレッシブ統合ネットワーク(TriPINet)を提案する。我々は,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発した。本手法と最先端画像鑑定法との比較のために, 大規模な実験を行った。
論文参考訳（メタデータ） (2022-12-25T02:27:58Z)
Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文参考訳（メタデータ） (2022-07-19T10:01:31Z)
Exploring the Interactive Guidance for Unified and Effective Image Matting [16.933897631478146]
そこで我々はUIMという名前のUnified Interactive Image Matting法を提案する。具体的には、UIMは複数のタイプのユーザインタラクションを活用して、複数のマッチングターゲットの曖昧さを回避する。 UIMは,コンポジション1Kテストセットと合成統合データセットを用いて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-05-17T13:20:30Z)
Mask guided attention for fine-grained patchy image classification [22.91753200323264]
きめ細かいパッチ画像分類のためのマスク誘導注意法(MGA)を提案する。提案手法の有効性を3つの公開パッチ画像データセットで検証する。我々のアブレーション研究は、MGAがSoyCultivarVeinおよびBtfPISデータセットの精度を2.25%、2%向上させることを示している。
論文参考訳（メタデータ） (2021-02-04T17:54:50Z)
Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2020-10-30T10:57:13Z)
Where to Look and How to Describe: Fashion Image Retrieval with an Attentional Heterogeneous Bilinear Network [50.19558726384559]
画像に基づくファッション商品検索のための生物学的にインスパイアされたフレームワークを提案する。提案フレームワークは,3つの画像に基づくファッション製品検索ベンチマークにおいて,満足な性能を実現する。
論文参考訳（メタデータ） (2020-10-26T06:01:09Z)
Devil's in the Details: Aligning Visual Clues for Conditional Embedding in Person Re-Identification [94.77172127405846]
歩行者画像の詳細な情報をよりよく活用するための2つの重要な認識パターンを提案する。 CACE-Netは3つの公開データセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-09-11T06:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。