論文の概要: Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences
- arxiv url: http://arxiv.org/abs/2307.16399v1
- Date: Mon, 31 Jul 2023 04:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:48:41.030758
- Title: Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences
- Title(参考訳): 意志による視覚的キャプション:少しスタイリッシュな文でガイドされた画像とビデオを記述
- Authors: Dingyi Yang, Hongyu Chen, Xinglin Hou, Tiezheng Ge, Yuning Jiang, Qin
Jin
- Abstract要約: Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.66987347397398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stylized visual captioning aims to generate image or video descriptions with
specific styles, making them more attractive and emotionally appropriate. One
major challenge with this task is the lack of paired stylized captions for
visual content, so most existing works focus on unsupervised methods that do
not rely on parallel datasets. However, these approaches still require training
with sufficient examples that have style labels, and the generated captions are
limited to predefined styles. To address these limitations, we explore the
problem of Few-Shot Stylized Visual Captioning, which aims to generate captions
in any desired style, using only a few examples as guidance during inference,
without requiring further training. We propose a framework called FS-StyleCap
for this task, which utilizes a conditional encoder-decoder language model and
a visual projection module. Our two-step training scheme proceeds as follows:
first, we train a style extractor to generate style representations on an
unlabeled text-only corpus. Then, we freeze the extractor and enable our
decoder to generate stylized descriptions based on the extracted style vector
and projected visual content vectors. During inference, our model can generate
desired stylized captions by deriving the style representation from
user-supplied examples. Our automatic evaluation results for few-shot
sentimental visual captioning outperform state-of-the-art approaches and are
comparable to models that are fully trained on labeled style corpora. Human
evaluations further confirm our model s ability to handle multiple styles.
- Abstract(参考訳): スティル化された視覚キャプションは、特定のスタイルで画像やビデオの説明を生成することを目的としており、より魅力的で感情的に適切である。
このタスクの1つの大きな課題は、ビジュアルコンテンツのためのペアのスタイル化されたキャプションがないことである。
しかし、これらのアプローチには、スタイルラベルを持つ十分な例によるトレーニングが必要であり、生成されたキャプションは事前に定義されたスタイルに限られている。
これらの制限に対処するために,我々は,任意のスタイルでキャプションを生成することを目的とした,数発のスタイリッシュなビジュアルキャプションの問題を,さらなるトレーニングを必要とせず,推論のガイダンスとして検討する。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
まず、ラベルのないテキストのみのコーパスでスタイル表現を生成するように、スタイル抽出器をトレーニングします。
そして,抽出器を凍結し,抽出したスタイルベクトルと投影されたビジュアルコンテンツベクトルに基づいて,デコーダがスタイリングされた記述を生成する。
提案モデルでは,ユーザが入力した例からスタイル表現を導出することにより,好みのキャプションを生成することができる。
印象的視覚キャプションは最先端のアプローチを上回り,ラベル付きコーパスで完全に訓練されたモデルに匹敵する。
人間の評価は、モデルが複数のスタイルを扱う能力をさらに確認します。
関連論文リスト
- StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - Say Anything with Any Style [9.50806457742173]
Anything withAny Styleは、学習したスタイルのコードブックで生成モデルを介して、個別のスタイル表現をクエリします。
提案手法は, リップ同期とスタイル表現の両方の観点から, 最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-11T01:20:03Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with
Unpaired Stylistic Corpora [37.53634609063878]
我々は,ADS-Cap(ADS-Cap)を精度良く生成する新しいフレームワークを提案する。
その後、条件付き変分自動エンコーダを使用して、潜在空間における多彩なスタイリスティックパターンを自動的に生成する。
広く使われている2つの画像キャプションデータセットの実験結果から,画像との整合性,スタイルの精度,多様性に関して,ADS-Capは優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-08-02T13:33:20Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - Controllable Image Captioning via Prompting [9.935191668056463]
統一モデルは、多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。
具体的には、事前訓練された画像キャプタを微調整する一連のプロンプトを設計する。
推論段階では,本モデルでは,対応するプロンプトを選択することで,所望のキャプションを生成することができる。
論文 参考訳(メタデータ) (2022-12-04T11:59:31Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。