論文の概要: StyleBabel: Artistic Style Tagging and Captioning
- arxiv url: http://arxiv.org/abs/2203.05321v2
- Date: Fri, 11 Mar 2022 08:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 11:51:15.056955
- Title: StyleBabel: Artistic Style Tagging and Captioning
- Title(参考訳): StyleBabel: アートスタイルのタグ付けとキャプション
- Authors: Dan Ruta, Andrew Gilbert, Pranav Aggarwal, Naveen Marri, Ajinkya Kale,
Jo Briggs, Chris Speed, Hailin Jin, Baldo Faieta, Alex Filipkowski, Zhe Lin,
John Collomosse
- Abstract要約: StyleBabelは、自然言語キャプションのユニークなオープンアクセスデータセットであり、135K以上のデジタルアートアートの芸術スタイルを記述したフリーフォームタグである。
- 参考スコア(独自算出の注目度): 38.792350870518504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present StyleBabel, a unique open access dataset of natural language
captions and free-form tags describing the artistic style of over 135K digital
artworks, collected via a novel participatory method from experts studying at
specialist art and design schools. StyleBabel was collected via an iterative
method, inspired by `Grounded Theory': a qualitative approach that enables
annotation while co-evolving a shared language for fine-grained artistic style
attribute description. We demonstrate several downstream tasks for StyleBabel,
adapting the recent ALADIN architecture for fine-grained style similarity, to
train cross-modal embeddings for: 1) free-form tag generation; 2) natural
language description of artistic style; 3) fine-grained text search of style.
To do so, we extend ALADIN with recent advances in Visual Transformer (ViT) and
cross-modal representation learning, achieving a state of the art accuracy in
fine-grained style retrieval.
- Abstract(参考訳): 本稿では,135K以上のデジタルアート作品の芸術様式を記述した,自然言語キャプションと自由形式のタグのユニークなオープンアクセスデータセットであるStyleBabelについて紹介する。
stylebabelは'grounded theory'にインスパイアされた反復的手法によって収集された: 細かな芸術的スタイル属性記述のための共有言語を共進化させながら、アノテーションを可能にする質的アプローチである。
StyleBabelのいくつかのダウンストリームタスクを実演し、最近のALADINアーキテクチャをきめ細かいスタイルの類似性に適応させ、次のようにクロスモーダルな埋め込みをトレーニングします。
1) フリーフォームタグ生成
2) 芸術様式の自然言語記述
3) きめ細かいスタイルのテキスト検索。
そこで我々は,ビジュアルトランスフォーマー (ViT) とクロスモーダル表現学習の最近の進歩により,ALADINを拡張し,細粒度スタイル検索の精度向上を実現した。
関連論文リスト
- Bridging Text and Image for Artist Style Transfer via Contrastive Learning [21.962361974579036]
本稿では,任意のスタイル転送を制御するためのCLAST(Contrastive Learning for Artistic Style Transfer)を提案する。
画像テキストモデルからスタイル記述を効果的に抽出するための教師付きコントラスト訓練戦略を導入する。
また,AdaLNをベースとした新規かつ効率的な状態空間モデルを提案する。
論文 参考訳(メタデータ) (2024-10-12T15:27:57Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Name Your Style: An Arbitrary Artist-aware Image Style Transfer [38.41608300670523]
任意のスタイル転送を制御するために,高度な画像テキストエンコーダを利用するテキスト駆動型画像スタイル転送(TxST)を提案する。
画像テキストモデルからスタイル記述を効果的に抽出するための対照的なトレーニング戦略を導入する。
我々はまた、スタイルやコンテンツの特徴を融合するクロスアテンションを探求する、新しく効率的なアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-02-28T06:21:38Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z) - ST$^2$: Small-data Text Style Transfer via Multi-task Meta-Learning [14.271083093944753]
テキストスタイルの転送は、コンテンツを保存しながら、あるスタイルの文を別のスタイルに言い換えることを目的としている。
並列トレーニングデータがないため、最先端の手法は教師なしであり、コンテンツを共有する大規模なデータセットに依存している。
そこで本研究では,任意のテキストスタイル間を移動するためのメタラーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2020-04-24T13:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。