論文の概要: Conditional Cross Attention Network for Multi-Space Embedding without
Entanglement in Only a SINGLE Network
- arxiv url: http://arxiv.org/abs/2307.13254v1
- Date: Tue, 25 Jul 2023 04:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 18:13:39.951324
- Title: Conditional Cross Attention Network for Multi-Space Embedding without
Entanglement in Only a SINGLE Network
- Title(参考訳): SINGLEネットワークのみに絡みのないマルチスペース埋め込みのための条件付きクロスアテンションネットワーク
- Authors: Chull Hwan Song, Taebaek Hwang, Jooyoung Yoon, Shunghyun Choi, Yeong
Hyeon Gu
- Abstract要約: 本研究では,複数の特定の属性に対して,単一のバックボーンのみを交叉する多空間埋め込みを誘導する条件付きクロスアテンションネットワークを提案する。
提案手法は,FashionAI,DARN,DeepFashion,Zappos50Kベンチマークデータセット上で一貫した最先端性能を実現した。
- 参考スコア(独自算出の注目度): 1.8899300124593648
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many studies in vision tasks have aimed to create effective embedding spaces
for single-label object prediction within an image. However, in reality, most
objects possess multiple specific attributes, such as shape, color, and length,
with each attribute composed of various classes. To apply models in real-world
scenarios, it is essential to be able to distinguish between the granular
components of an object. Conventional approaches to embedding multiple specific
attributes into a single network often result in entanglement, where
fine-grained features of each attribute cannot be identified separately. To
address this problem, we propose a Conditional Cross-Attention Network that
induces disentangled multi-space embeddings for various specific attributes
with only a single backbone. Firstly, we employ a cross-attention mechanism to
fuse and switch the information of conditions (specific attributes), and we
demonstrate its effectiveness through a diverse visualization example.
Secondly, we leverage the vision transformer for the first time to a
fine-grained image retrieval task and present a simple yet effective framework
compared to existing methods. Unlike previous studies where performance varied
depending on the benchmark dataset, our proposed method achieved consistent
state-of-the-art performance on the FashionAI, DARN, DeepFashion, and Zappos50K
benchmark datasets.
- Abstract(参考訳): 視覚タスクにおける多くの研究は、画像内の単一ラベルオブジェクトの予測に効果的な埋め込み空間を作ることを目的としている。
しかし実際には、ほとんどのオブジェクトは形状、色、長さなどの複数の属性を持ち、それぞれの属性は様々なクラスで構成されている。
実世界のシナリオにモデルを適用するためには、オブジェクトの粒状コンポーネントを区別できることが不可欠である。
従来のアプローチでは、単一のネットワークに複数の特定の属性を組み込むと、しばしば絡み合いが生じ、各属性のきめ細かい特徴を別々に識別できない。
この問題に対処するために,1つのバックボーンのみを用いて,様々な属性に対して複数空間の分散埋め込みを誘導する条件付きクロスアテンションネットワークを提案する。
まず,条件情報(特定の属性)を融合・切り替えするクロス・アテンション・メカニズムを採用し,その効果を多様な可視化例を用いて実証する。
第2に,視覚トランスフォーマーを初めて細粒度画像検索タスクに活用し,既存の手法と比較して単純かつ効果的なフレームワークを提案する。
FashionAI,DARN,DeepFashion,Zappos50Kベンチマークデータセット上で,ベンチマークデータセットによってパフォーマンスが異なっていた従来の研究とは異なり,提案手法は一貫した最先端のパフォーマンスを達成した。
関連論文リスト
- HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification [15.129037250680582]
厳密な視覚-言語相互作用は、分類性能を改善する上で重要な役割を担っている。
近年のTransformerベースの手法は,マルチラベル画像分類において大きな成功を収めている。
本稿では,2つの魅力ある設計を持つ階層型視標変換器 (HSVLT) を提案する。
論文 参考訳(メタデータ) (2024-07-23T07:31:42Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation [27.587905673112473]
ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
論文 参考訳(メタデータ) (2022-10-12T02:21:18Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - Multiple instance learning on deep features for weakly supervised object
detection with extreme domain shifts [1.9336815376402716]
近年,画像レベルのアノテーションのみを用いたオブジェクト検出 (WSOD) が注目されている。
事前学習した深部特徴に応用した単純な複数インスタンスアプローチは、非写真データセットに優れた性能をもたらすことを示す。
論文 参考訳(メタデータ) (2020-08-03T20:36:01Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。