論文の概要: 3M: Multi-style image caption generation using Multi-modality features
under Multi-UPDOWN model
- arxiv url: http://arxiv.org/abs/2103.11186v1
- Date: Sat, 20 Mar 2021 14:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 11:17:50.700403
- Title: 3M: Multi-style image caption generation using Multi-modality features
under Multi-UPDOWN model
- Title(参考訳): 3m:マルチアップダウンモデルにおけるマルチモダリティ機能を用いたマルチスタイル画像キャプション生成
- Authors: Chengxi Li and Brent Harrison
- Abstract要約: マルチモーダル特徴を符号化し,それをキャプションにデコードするマルチUPDOWNキャプションモデルである3Mモデルを提案する。
2つのデータセットでの性能を検証し,人間ライクなキャプション生成におけるモデルの有効性を実証する。
- 参考スコア(独自算出の注目度): 8.069209836624495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we build a multi-style generative model for stylish image
captioning which uses multi-modality image features, ResNeXt features and text
features generated by DenseCap. We propose the 3M model, a Multi-UPDOWN caption
model that encodes multi-modality features and decode them to captions. We
demonstrate the effectiveness of our model on generating human-like captions by
examining its performance on two datasets, the PERSONALITY-CAPTIONS dataset and
the FlickrStyle10K dataset. We compare against a variety of state-of-the-art
baselines on various automatic NLP metrics such as BLEU, ROUGE-L, CIDEr, SPICE,
etc. A qualitative study has also been done to verify our 3M model can be used
for generating different stylized captions.
- Abstract(参考訳): 本稿では,DenseCap が生成したマルチモーダル画像特徴,ResNeXt 特徴,テキスト特徴を用いたスタイリッシュな画像キャプションのためのマルチスタイル生成モデルを構築する。
マルチモーダル特徴を符号化し,それをキャプションにデコードするマルチUPDOWNキャプションモデルである3Mモデルを提案する。
本研究では, ペルソナリティ・キャプションSデータセットとFlickrStyle10Kデータセットの2つのデータセットにおいて, 人型キャプション生成におけるモデルの有効性を示す。
我々は,BLEU,ROUGE-L,CIDEr,SPICEなど,さまざまな自動NLP測定値に対する最先端のベースラインを比較した。
また,3Mモデルを用いて異なるキャプションを生成するための定性的研究も行われている。
関連論文リスト
- Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - M3PT: A Multi-Modal Model for POI Tagging [18.585818094015465]
我々は,POIタグの強化を実現する新しいマルチモーダルモデル,すなわちM3PTを提案する。
まず、ドメイン適応型画像エンコーダ(DIE)を考案し、それらのゴールドタグのセマンティクスに整合した画像埋め込みを得る。
M3PTのテキストイメージ融合モジュール(TIF)では、テキストと視覚の表現は、後続のマッチングのためにPOIのコンテンツ埋め込みに完全に融合される。
論文 参考訳(メタデータ) (2023-06-16T05:46:27Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - M-VADER: A Model for Diffusion with Multimodal Context [0.786460153386845]
本稿では,M-VADERが画像とテキストの組み合わせで指定された画像を生成する方法を示す。
視覚言語モデルと密接に関連する埋め込みモデルを導入する。
論文 参考訳(メタデータ) (2022-12-06T12:45:21Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。