論文の概要: Garment Attribute Manipulation with Multi-level Attention
- arxiv url: http://arxiv.org/abs/2409.10206v1
- Date: Mon, 16 Sep 2024 11:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:40:35.099704
- Title: Garment Attribute Manipulation with Multi-level Attention
- Title(参考訳): マルチレベル注意によるガーメント属性操作
- Authors: Vittorio Casula, Lorenzo Berlincioni, Luca Cultrera, Federico Becattini, Chiara Pero, Carmen Bisogni, Marco Bertini, Alberto Del Bimbo,
- Abstract要約: 属性不整合表現を多段階アテンションベースアーキテクチャと統合するフレームワークであるGAMMAを提案する。
デュアルエンコーダトランスとメモリブロックを活用することで、Shopping100kやDeepFashionといった一般的なデータセットで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 29.34962693598485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving field of online fashion shopping, the need for more personalized and interactive image retrieval systems has become paramount. Existing methods often struggle with precisely manipulating specific garment attributes without inadvertently affecting others. To address this challenge, we propose GAMMA (Garment Attribute Manipulation with Multi-level Attention), a novel framework that integrates attribute-disentangled representations with a multi-stage attention-based architecture. GAMMA enables targeted manipulation of fashion image attributes, allowing users to refine their searches with high accuracy. By leveraging a dual-encoder Transformer and memory block, our model achieves state-of-the-art performance on popular datasets like Shopping100k and DeepFashion.
- Abstract(参考訳): オンラインファッションショッピングの分野では、よりパーソナライズされインタラクティブな画像検索システムの必要性が高まっている。
既存の方法では、特定の衣服の属性を正確に操作するのに、他人に不注意に影響を及ぼすことなく苦労することが多い。
この課題に対処するために,属性不整合表現と多段階アテンションベースアーキテクチャを統合する新しいフレームワークであるGAMMA(Garment Attribute Manipulation with Multi-level Attention)を提案する。
GAMMAは、ファッションイメージ属性をターゲットとする操作を可能にし、ユーザーは高い精度で検索を洗練できる。
デュアルエンコーダトランスとメモリブロックを活用することで、Shopping100kやDeepFashionといった一般的なデータセットで最先端のパフォーマンスを実現しています。
関連論文リスト
- FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on [73.13242624924814]
Diffusion Transformer (DiT) を用いた高忠実度仮想試行用ガーメント知覚増強技術FitDiT
布地テクスチャ抽出装置を導入し, 布地や模様, テクスチャなどのリッチな細部を, よりよく捉えられるようにした。
また,クロスカテゴリー試着中にマスク領域全体を埋める衣服の発生を防止し,衣料の正しい長さに適応する拡張緩和マスク戦略を採用した。
論文 参考訳(メタデータ) (2024-11-15T11:02:23Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - U-VAP: User-specified Visual Appearance Personalization via Decoupled Self Augmentation [18.841473623776153]
最先端のパーソナライズモデルでは、被写体全体をオーバーフィットさせる傾向があり、画素空間における視覚的特徴を乱すことはできない。
ユーザ固有の視覚属性を学習するために,ターゲット関連および非ターゲットサンプルを生成するために,新たなデカップリング自己拡張戦略を提案する。
SOTAパーソナライズ手法による様々な視覚特性の実験は、新規な文脈における対象の視覚的外観を模倣する手法の能力を示している。
論文 参考訳(メタデータ) (2024-03-29T15:20:34Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - DETR-based Layered Clothing Segmentation and Fine-Grained Attribute
Recognition [10.924683447616273]
アンサンブル衣料品の細粒度属性を高精度に分別・認識するための新しい検出TR(Detection TRansformer)法を提案する。
我々は、Fashionpediaデータセット上でモデルをトレーニングし、階層化された衣服のセグメンテーションときめ細かい属性認識のタスクにおいて、SOTAモデルを超える方法を示す。
論文 参考訳(メタデータ) (2023-04-17T09:34:48Z) - MMFL-Net: Multi-scale and Multi-granularity Feature Learning for
Cross-domain Fashion Retrieval [3.7045939497992917]
クロスドメインファッション検索は、C2S(Consumer-to-Shop)ドメインの幅広い相違により難しい課題である。
衣料品画像のグローバル・ローカル・アグリゲーション特徴表現を共同で学習できる新しいマルチスケール・マルチグラニュラリティ特徴学習ネットワーク(MMFL-Net)を提案する。
提案モデルでは,マルチタスク属性認識と分類モジュールを多ラベル意味属性および製品IDラベルと組み合わせた。
論文 参考訳(メタデータ) (2022-10-27T02:25:52Z) - Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation [27.587905673112473]
ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
論文 参考訳(メタデータ) (2022-10-12T02:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。