論文の概要: 3M: Multi-style image caption generation using Multi-modality features
  under Multi-UPDOWN model
        - arxiv url: http://arxiv.org/abs/2103.11186v1
- Date: Sat, 20 Mar 2021 14:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-03-25 11:17:50.700403
- Title: 3M: Multi-style image caption generation using Multi-modality features
  under Multi-UPDOWN model
- Title(参考訳): 3m:マルチアップダウンモデルにおけるマルチモダリティ機能を用いたマルチスタイル画像キャプション生成
- Authors: Chengxi Li and Brent Harrison
- Abstract要約: マルチモーダル特徴を符号化し,それをキャプションにデコードするマルチUPDOWNキャプションモデルである3Mモデルを提案する。
2つのデータセットでの性能を検証し,人間ライクなキャプション生成におけるモデルの有効性を実証する。
- 参考スコア(独自算出の注目度): 8.069209836624495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract:   In this paper, we build a multi-style generative model for stylish image
captioning which uses multi-modality image features, ResNeXt features and text
features generated by DenseCap. We propose the 3M model, a Multi-UPDOWN caption
model that encodes multi-modality features and decode them to captions. We
demonstrate the effectiveness of our model on generating human-like captions by
examining its performance on two datasets, the PERSONALITY-CAPTIONS dataset and
the FlickrStyle10K dataset. We compare against a variety of state-of-the-art
baselines on various automatic NLP metrics such as BLEU, ROUGE-L, CIDEr, SPICE,
etc. A qualitative study has also been done to verify our 3M model can be used
for generating different stylized captions.
- Abstract(参考訳): 本稿では,DenseCap が生成したマルチモーダル画像特徴,ResNeXt 特徴,テキスト特徴を用いたスタイリッシュな画像キャプションのためのマルチスタイル生成モデルを構築する。
マルチモーダル特徴を符号化し,それをキャプションにデコードするマルチUPDOWNキャプションモデルである3Mモデルを提案する。
本研究では, ペルソナリティ・キャプションSデータセットとFlickrStyle10Kデータセットの2つのデータセットにおいて, 人型キャプション生成におけるモデルの有効性を示す。
我々は,BLEU,ROUGE-L,CIDEr,SPICEなど,さまざまな自動NLP測定値に対する最先端のベースラインを比較した。
また,3Mモデルを用いて異なるキャプションを生成するための定性的研究も行われている。
 
      
        関連論文リスト
        - Line of Sight: On Linear Representations in VLLMs [44.75626175851506]
 残ストリームで線形デオード可能な機能によって表現される、多様なImageNetクラスが見つかる。
線形特徴量の多様性を高めるために,マルチモーダルスパースオートエンコーダ(SAE)を訓練する。
モダリティ間のモデル表現は極めて不整合であるが、より深い層で共有されることが分かる。
 論文  参考訳(メタデータ) (2025-06-05T07:30:58Z)
- Personalizing Multimodal Large Language Models for Image Captioning: An   Experimental Analysis [44.008094698200026]
 本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。
これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。
以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
 論文  参考訳(メタデータ) (2024-12-04T19:01:06Z)
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal   Foundation Models [63.01630478059315]
 マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
 論文  参考訳(メタデータ) (2024-10-03T17:54:52Z)
- PixelBytes: Catching Unified Embedding for Multimodal Generation [0.0]
 PixelBytes Embeddingは、統一マルチモーダル表現学習のための新しいアプローチである。
Image Transformers、PixelCNN、Mamba-Bytesといった最先端のシーケンスモデルにインスパイアされたPixelBytesは、さまざまなデータ型を統合するという課題に対処することを目指している。
 論文  参考訳(メタデータ) (2024-09-03T06:02:02Z)
- mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal   Large Language Models [71.40705814904898]
 本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。
具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
 論文  参考訳(メタデータ) (2024-08-09T03:25:42Z)
- Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
 重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
 論文  参考訳(メタデータ) (2024-05-31T17:59:56Z)
- Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
  Tuning [115.50132185963139]
 CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
 論文  参考訳(メタデータ) (2023-09-05T21:27:27Z)
- Generating Images with Multimodal Language Models [78.6660334861137]
 本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
 論文  参考訳(メタデータ) (2023-05-26T19:22:03Z)
- M-VADER: A Model for Diffusion with Multimodal Context [0.786460153386845]
 本稿では,M-VADERが画像とテキストの組み合わせで指定された画像を生成する方法を示す。
視覚言語モデルと密接に関連する埋め込みモデルを導入する。
 論文  参考訳(メタデータ) (2022-12-06T12:45:21Z)
- TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
 TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
 論文  参考訳(メタデータ) (2020-12-06T16:20:19Z)
- Fusion Models for Improved Visual Captioning [18.016295296424413]
 本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
 論文  参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
       
     
      指定された論文の情報です。
      本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。