論文の概要: ALADIN: All Layer Adaptive Instance Normalization for Fine-grained Style
Similarity
- arxiv url: http://arxiv.org/abs/2103.09776v1
- Date: Wed, 17 Mar 2021 17:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 12:57:16.575405
- Title: ALADIN: All Layer Adaptive Instance Normalization for Fine-grained Style
Similarity
- Title(参考訳): ALADIN: きめ細かいスタイルの類似性のための全層適応インスタンス正規化
- Authors: Dan Ruta, Saeid Motiian, Baldo Faieta, Zhe Lin, Hailin Jin, Alex
Filipkowski, Andrew Gilbert, John Collomosse
- Abstract要約: ALADIN(All Layer AdaIN)は、アートスタイルの類似性に基づいた画像検索のための新しいアーキテクチャである。
310,000の細かいスタイルグループからなる新しい2.62百万の画像データセットも、この研究によって貢献した。
- 参考スコア(独自算出の注目度): 34.72879991733022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ALADIN (All Layer AdaIN); a novel architecture for searching
images based on the similarity of their artistic style. Representation learning
is critical to visual search, where distance in the learned search embedding
reflects image similarity. Learning an embedding that discriminates
fine-grained variations in style is hard, due to the difficulty of defining and
labelling style. ALADIN takes a weakly supervised approach to learning a
representation for fine-grained style similarity of digital artworks,
leveraging BAM-FG, a novel large-scale dataset of user generated content
groupings gathered from the web. ALADIN sets a new state of the art accuracy
for style-based visual search over both coarse labelled style data (BAM) and
BAM-FG; a new 2.62 million image dataset of 310,000 fine-grained style
groupings also contributed by this work.
- Abstract(参考訳): 本稿では,ALADIN(All Layer AdaIN)について紹介する。
表現学習は視覚検索において重要であり、学習された検索埋め込み内の距離は画像の類似性を反映している。
スタイルにおける細かなバリエーションを識別する埋め込みの学習は、スタイルの定義とラベリングが難しいため難しい。
ALADINは、Webから収集されたユーザ生成コンテンツグループの新しい大規模データセットであるBAM-FGを利用して、デジタルアートワークのきめ細かいスタイルの類似性を表現するために、弱い教師付きアプローチを採用している。
ALADINは、粗いラベル付きスタイルデータ(BAM)とBAM-FGの両方に対するスタイルベースのビジュアルサーチのための、新しい芸術的精度を設定している。
関連論文リスト
- StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Unified Implicit Neural Stylization [80.59831861186227]
この研究は、スタイル化された暗黙の表現のトレーニングという、新しい興味深い方向性を探求する。
本研究では,2次元座標に基づく表現,ニューラルラディアンス場,符号付き距離関数など,様々な暗黙関数に関するパイロット研究を行う。
我々のソリューションは、INSと呼ばれる統一暗黙的ニューラルスティル化フレームワークです。
論文 参考訳(メタデータ) (2022-04-05T02:37:39Z) - StyleBabel: Artistic Style Tagging and Captioning [38.792350870518504]
StyleBabelは、自然言語キャプションのユニークなオープンアクセスデータセットであり、135K以上のデジタルアートアートの芸術スタイルを記述したフリーフォームタグである。
論文 参考訳(メタデータ) (2022-03-10T12:15:55Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。