論文の概要: Where to Look and How to Describe: Fashion Image Retrieval with an
Attentional Heterogeneous Bilinear Network
- arxiv url: http://arxiv.org/abs/2010.13357v1
- Date: Mon, 26 Oct 2020 06:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:15:42.788517
- Title: Where to Look and How to Describe: Fashion Image Retrieval with an
Attentional Heterogeneous Bilinear Network
- Title(参考訳): 視線と説明方法:意図的不均一双線形ネットワークを用いたファッション画像検索
- Authors: Haibo Su, Peng Wang, Lingqiao Liu, Hui Li, Zhen Li, Yanning Zhang
- Abstract要約: 画像に基づくファッション商品検索のための生物学的にインスパイアされたフレームワークを提案する。
提案フレームワークは,3つの画像に基づくファッション製品検索ベンチマークにおいて,満足な性能を実現する。
- 参考スコア(独自算出の注目度): 50.19558726384559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fashion products typically feature in compositions of a variety of styles at
different clothing parts. In order to distinguish images of different fashion
products, we need to extract both appearance (i.e., "how to describe") and
localization (i.e.,"where to look") information, and their interactions. To
this end, we propose a biologically inspired framework for image-based fashion
product retrieval, which mimics the hypothesized twostream visual processing
system of human brain. The proposed attentional heterogeneous bilinear network
(AHBN) consists of two branches: a deep CNN branch to extract fine-grained
appearance attributes and a fully convolutional branch to extract landmark
localization information. A joint channel-wise attention mechanism is further
applied to the extracted heterogeneous features to focus on important channels,
followed by a compact bilinear pooling layer to model the interaction of the
two streams. Our proposed framework achieves satisfactory performance on three
image-based fashion product retrieval benchmarks.
- Abstract(参考訳): ファッション製品は典型的には、さまざまなスタイルの様々な衣服部品の合成で特徴付けられる。
異なるファッション製品のイメージを識別するには、外観(「表現する方法」)とローカライゼーション(「見る場所」)情報とそれらの相互作用の両方を抽出する必要がある。
そこで本研究では,人間の脳の2ストリーム視覚処理システムを模倣した,画像に基づくファッション製品検索のための生物学的にインスパイアされたフレームワークを提案する。
提案手法は,細粒度の外観属性を抽出するディープcnnブランチと,ランドマーク位置情報を抽出する完全畳み込みブランチの2つのブランチからなる。
さらに、抽出した異種特徴に対して、重要なチャネルに焦点を合わせ、続いて2つのストリームの相互作用をモデル化するためのコンパクトな双線形プール層が適用される。
提案フレームワークは,3つの画像ベースファッション製品検索ベンチマークで満足できる性能を実現する。
関連論文リスト
- BIMM: Brain Inspired Masked Modeling for Video Representation Learning [47.56270575865621]
本稿では、ビデオから包括的な表現を学習することを目的とした、Brain Inspired Masked Modeling (BIMM)フレームワークを提案する。
具体的には腹側枝と背側枝からなり,それぞれ画像と映像の表現を学習する。
脳内の異なる視覚皮質の目標を達成するために、各枝のエンコーダを3つの中間ブロックに分割し、軽量デコーダを用いて進行予測ターゲットを再構築する。
論文 参考訳(メタデータ) (2024-05-21T13:09:04Z) - Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - MMFL-Net: Multi-scale and Multi-granularity Feature Learning for
Cross-domain Fashion Retrieval [3.7045939497992917]
クロスドメインファッション検索は、C2S(Consumer-to-Shop)ドメインの幅広い相違により難しい課題である。
衣料品画像のグローバル・ローカル・アグリゲーション特徴表現を共同で学習できる新しいマルチスケール・マルチグラニュラリティ特徴学習ネットワーク(MMFL-Net)を提案する。
提案モデルでは,マルチタスク属性認識と分類モジュールを多ラベル意味属性および製品IDラベルと組み合わせた。
論文 参考訳(メタデータ) (2022-10-27T02:25:52Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Unsupervised Learning of Landmarks based on Inter-Intra Subject
Consistencies [72.67344725725961]
本稿では,物体間ランドマーク成分を顔画像に組み込むことにより,画像ランドマーク発見のための教師なし学習手法を提案する。
これは、補助的な主題関連構造に基づいて、元の主題のランドマークを変換するオブジェクト間マッピングモジュールによって達成される。
変換された画像から元の被写体に戻るために、ランドマーク検出器は、対のオブジェクト内画像と対のオブジェクト間画像の両方に一貫した意味を含む空間的位置を学習せざるを得ない。
論文 参考訳(メタデータ) (2020-04-16T20:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。