論文の概要: Diverse Image Captioning with Grounded Style
- arxiv url: http://arxiv.org/abs/2205.01813v1
- Date: Tue, 3 May 2022 22:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:09:43.487190
- Title: Diverse Image Captioning with Grounded Style
- Title(参考訳): グラウンデッドスタイルによる多様な画像キャプション
- Authors: Franz Klein, Shweta Mahajan, Stefan Roth
- Abstract要約: 我々はCOCOアノテーションから多種多様な字幕を抽出するためのCOCOベースの拡張を提案する。
本研究では,変分オートエンコーダの潜時空間におけるスタイリング情報を符号化する。
SenticapとCOCOデータセットの実験は、正確なキャプションを生成するためのアプローチの能力を示している。
- 参考スコア(独自算出の注目度): 19.434931809979282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stylized image captioning as presented in prior work aims to generate
captions that reflect characteristics beyond a factual description of the scene
composition, such as sentiments. Such prior work relies on given sentiment
identifiers, which are used to express a certain global style in the caption,
e.g. positive or negative, however without taking into account the stylistic
content of the visual scene. To address this shortcoming, we first analyze the
limitations of current stylized captioning datasets and propose COCO
attribute-based augmentations to obtain varied stylized captions from COCO
annotations. Furthermore, we encode the stylized information in the latent
space of a Variational Autoencoder; specifically, we leverage extracted image
attributes to explicitly structure its sequential latent space according to
different localized style characteristics. Our experiments on the Senticap and
COCO datasets show the ability of our approach to generate accurate captions
with diversity in styles that are grounded in the image.
- Abstract(参考訳): 先行研究で示された様式化された画像キャプションは、感情などのシーン構成の実際の記述を超えた特徴を反映したキャプションを作成することを目的としている。
このような先行的な作業は、例えば肯定的や否定的といったキャプションにおける特定のグローバルなスタイルを表現するために使用される、与えられた感情の識別子に依存するが、視覚シーンのスタイル的内容は考慮しない。
この欠点に対処するために、我々はまず、現在のスタイル化されたキャプションデータセットの限界を分析し、COCOアノテーションから様々なスタイル化されたキャプションを得るためのCOCO属性ベースの拡張を提案する。
さらに,スタイライゼーション情報を変分オートエンコーダの潜在空間にエンコードする。具体的には,抽出された画像属性を利用して,異なる局所的スタイル特性に従って逐次的潜在空間を明示的に構築する。
Senticap と COCO のデータセットを用いた実験は、画像に接するスタイルの多様性のある正確なキャプションを生成するためのアプローチの能力を示している。
関連論文リスト
- Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with
Unpaired Stylistic Corpora [37.53634609063878]
我々は,ADS-Cap(ADS-Cap)を精度良く生成する新しいフレームワークを提案する。
その後、条件付き変分自動エンコーダを使用して、潜在空間における多彩なスタイリスティックパターンを自動的に生成する。
広く使われている2つの画像キャプションデータセットの実験結果から,画像との整合性,スタイルの精度,多様性に関して,ADS-Capは優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-08-02T13:33:20Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent
Experts [5.859294565508523]
特徴を抽出する画像エンコーダと、抽出された特徴の集合を単語の集合に埋め込む再帰ネットワークと、得られた単語をスタイリングされた文として結合する文生成器とを含む新しいキャプションモデルを開発する。
提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T11:00:27Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。