論文の概要: Fuse and Attend: Generalized Embedding Learning for Art and Sketches
- arxiv url: http://arxiv.org/abs/2208.09698v1
- Date: Sat, 20 Aug 2022 14:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:12:03.718828
- Title: Fuse and Attend: Generalized Embedding Learning for Art and Sketches
- Title(参考訳): fuse and attend: アートとスケッチのための一般化埋め込み学習
- Authors: Ujjal Kr Dutta
- Abstract要約: 本稿では,様々な領域にまたがる一般化を目的とした新しい埋め込み学習手法を提案する。
PACS(Photo, Art painting, Cartoon, Sketch)データセット上で,Domainフレームワークを用いた手法の有効性を示す。
- 参考スコア(独自算出の注目度): 6.375982344506753
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While deep Embedding Learning approaches have witnessed widespread success in
multiple computer vision tasks, the state-of-the-art methods for representing
natural images need not necessarily perform well on images from other domains,
such as paintings, cartoons, and sketch. This is because of the huge shift in
the distribution of data from across these domains, as compared to natural
images. Domains like sketch often contain sparse informative pixels. However,
recognizing objects in such domains is crucial, given multiple relevant
applications leveraging such data, for instance, sketch to image retrieval.
Thus, achieving an Embedding Learning model that could perform well across
multiple domains is not only challenging, but plays a pivotal role in computer
vision. To this end, in this paper, we propose a novel Embedding Learning
approach with the goal of generalizing across different domains. During
training, given a query image from a domain, we employ gated fusion and
attention to generate a positive example, which carries a broad notion of the
semantics of the query object category (from across multiple domains). By
virtue of Contrastive Learning, we pull the embeddings of the query and
positive, in order to learn a representation which is robust across domains. At
the same time, to teach the model to be discriminative against examples from
different semantic categories (across domains), we also maintain a pool of
negative embeddings (from different categories). We show the prowess of our
method using the DomainBed framework, on the popular PACS (Photo, Art painting,
Cartoon, and Sketch) dataset.
- Abstract(参考訳): 深層埋め込み学習のアプローチは、複数のコンピュータビジョンタスクで広く成功したが、自然画像を表現するための最先端の手法は、絵画、漫画、スケッチといった他の領域の画像に対して必ずしもうまく機能する必要はない。
これは、自然画像と比較して、これらの領域間のデータの分布が大きく変化しているためである。
スケッチのようなドメインは、しばしばスパース情報ピクセルを含む。
しかし、そのようなデータ、例えば画像検索へのスケッチを利用する複数の関連アプリケーションを考えると、そのようなドメイン内のオブジェクトを認識することは重要である。
したがって、複数のドメインにまたがってうまく機能する組込み学習モデルの実現は、挑戦的なだけでなく、コンピュータビジョンにおいて重要な役割を果たす。
そこで本稿では,異なる領域にまたがって一般化することを目的とした新しい組込み学習手法を提案する。
トレーニング中、ドメインからのクエリイメージが与えられたとき、ゲート融合と注意を駆使して、(複数のドメインから)クエリオブジェクトカテゴリのセマンティクスの広範な概念を持つポジティブな例を生成します。
対照的な学習によって、ドメイン間で堅牢な表現を学ぶために、クエリの埋め込みを抽出し、ポジティブにします。
同時に、モデルに異なる意味圏(クロスドメイン)の例に対して差別的であるように教えるために、私たちは(異なるカテゴリから)負の埋め込みのプールも維持します。
本稿では,人気のあるpacデータセット(写真,アートペインティング,漫画,スケッチ)上に,ドメインベッドフレームワークを用いた手法の長所を示す。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - Domain-invariant Prototypes for Semantic Segmentation [30.932130453313537]
ドメイン適応型セマンティックセグメンテーションのためのドメイン不変のプロトタイプを学習する。
本手法は,1段階の訓練のみを伴い,大規模な未注釈対象画像に対してトレーニングを行う必要はない。
論文 参考訳(メタデータ) (2022-08-12T02:21:05Z) - Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。
本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。
我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T10:25:45Z) - Self-Supervised Learning of Domain Invariant Features for Depth
Estimation [35.74969527929284]
単一画像深度推定のための教師なし合成-現実的領域適応の課題に対処する。
単一画像深度推定の重要なビルディングブロックはエンコーダ・デコーダ・タスク・ネットワークであり、RGB画像を入力とし、出力として深度マップを生成する。
本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-06-04T16:45:48Z) - Extending and Analyzing Self-Supervised Learning Across Domains [50.13326427158233]
近年,自己指導型表現学習が目覚ましい成果を上げている。
実験は主にImageNetや他の同様の大規模なインターネット画像データセット上で行われる。
我々は、前例のない様々なドメインで、いくつかのポピュラーな手法を実験した。
論文 参考訳(メタデータ) (2020-04-24T21:18:02Z) - Unifying Specialist Image Embedding into Universal Image Embedding [84.0039266370785]
画像の様々な領域に適用可能な普遍的な深層埋め込みモデルを持つことが望ましい。
本稿では,複数の専門家の知識を普遍的な埋め込みに融合させてこの問題を解決することを提案する。
論文 参考訳(メタデータ) (2020-03-08T02:51:11Z) - Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings [76.85673049332428]
画像とテキストの合同表現の学習は、画像キャプションのようないくつかの重要なドメイン横断タスクのバックボーンを形成する。
ドメイン間の共有情報とドメイン固有の情報を個別にモデル化する,新しい半教師付きフレームワークを提案する。
画像キャプションやテキスト・ツー・イメージ合成など,様々なタスクにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-02-16T19:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。