論文の概要: Masked Language Prompting for Generative Data Augmentation in Few-shot Fashion Style Recognition
- arxiv url: http://arxiv.org/abs/2504.19455v1
- Date: Mon, 28 Apr 2025 03:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.302979
- Title: Masked Language Prompting for Generative Data Augmentation in Few-shot Fashion Style Recognition
- Title(参考訳): Few-shot Fashion スタイル認識における生成データ増大のためのマスケプ言語プロンプト
- Authors: Yuki Hirakawa, Ryotaro Shimizu,
- Abstract要約: ファッションスタイル認識のためのデータセットは、スタイル概念の固有の主観性とあいまいさのために困難である。
近年のテキスト・ツー・イメージ・モデルの発展により,ラベル付きデータからの画像の合成により生成データの増大が促進されている。
提案手法は,選択した単語を参照キャプションに隠蔽し,多種多様な意味的コヒーレントを生成するために大規模言語モデルを活用する,新たな促進戦略である。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing dataset for fashion style recognition is challenging due to the inherent subjectivity and ambiguity of style concepts. Recent advances in text-to-image models have facilitated generative data augmentation by synthesizing images from labeled data, yet existing methods based solely on class names or reference captions often fail to balance visual diversity and style consistency. In this work, we propose \textbf{Masked Language Prompting (MLP)}, a novel prompting strategy that masks selected words in a reference caption and leverages large language models to generate diverse yet semantically coherent completions. This approach preserves the structural semantics of the original caption while introducing attribute-level variations aligned with the intended style, enabling style-consistent and diverse image generation without fine-tuning. Experimental results on the FashionStyle14 dataset demonstrate that our MLP-based augmentation consistently outperforms class-name and caption-based baselines, validating its effectiveness for fashion style recognition under limited supervision.
- Abstract(参考訳): ファッションスタイル認識のためのデータセットの構築は、スタイル概念の固有の主観性とあいまいさのために困難である。
近年のテキスト・ツー・イメージ・モデルの進歩は、ラベル付きデータからイメージを合成することで、生成データの増大を促進するが、クラス名や参照キャプションのみに基づく既存の手法では、視覚的多様性とスタイルの整合性のバランスが取れないことが多い。
本研究では,選択した単語を参照キャプションに隠蔽し,大きな言語モデルを利用して多種多様な意味的コヒーレントな補完を生成する新しいプロンプト戦略である,MLP(textbf{Masked Language Prompting)を提案する。
提案手法は,本来のキャプションの構造的意味を保ちつつ,属性レベルの変動を意図したスタイルに整合させ,微調整を伴わないスタイル一貫性と多様な画像生成を可能にする。
FashionStyle14データセットによる実験結果から,MLPベースの拡張はクラス名やキャプションベースのベースラインを一貫して上回り,限られた監督下でのファッションスタイル認識の有効性が検証された。
関連論文リスト
- UnMA-CapSumT: Unified and Multi-Head Attention-driven Caption Summarization Transformer [6.351779356923131]
本稿では,Unified Attention and Multi-Head Attention-driven Caption Summarization Transformer (UnMA-CapSumT) ベースのキャプションフレームワークを提案する。
修正適応注意に基づく実写画像キャプションモデル(MAA-FIC)とSF-Bi-ALSTM駆動のスタイル化画像キャプションモデル(SF-Bi-ALSTM)の両方を用いている。
論文 参考訳(メタデータ) (2024-12-16T14:57:40Z) - Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - StyleForge: Enhancing Text-to-Image Synthesis for Any Artistic Styles with Dual Binding [7.291687946822539]
多様な芸術様式にまたがるパーソナライズされたテキスト・ツー・イメージ合成のための新しいアプローチであるSingle-StyleForgeを紹介した。
また、複数のトークンを部分的なスタイル属性に結合することで、画像の品質とテキストアライメントを向上させるMulti-StyleForgeを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:43:23Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。