論文の概要: Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent
Experts
- arxiv url: http://arxiv.org/abs/2007.03338v1
- Date: Tue, 7 Jul 2020 11:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:32:15.618469
- Title: Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent
Experts
- Title(参考訳): SVD-based Mixture of Recurrent Experts を用いた画像キャプション
- Authors: Marzieh Heidari, Mehdi Ghatee, Ahmad Nickabadi, Arash Pourhasan Nezhad
- Abstract要約: 特徴を抽出する画像エンコーダと、抽出された特徴の集合を単語の集合に埋め込む再帰ネットワークと、得られた単語をスタイリングされた文として結合する文生成器とを含む新しいキャプションモデルを開発する。
提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
- 参考スコア(独自算出の注目度): 5.859294565508523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With great advances in vision and natural language processing, the generation
of image captions becomes a need. In a recent paper, Mathews, Xie and He [1],
extended a new model to generate styled captions by separating semantics and
style. In continuation of this work, here a new captioning model is developed
including an image encoder to extract the features, a mixture of recurrent
networks to embed the set of extracted features to a set of words, and a
sentence generator that combines the obtained words as a stylized sentence. The
resulted system that entitled as Mixture of Recurrent Experts (MoRE), uses a
new training algorithm that derives singular value decomposition (SVD) from
weighting matrices of Recurrent Neural Networks (RNNs) to increase the
diversity of captions. Each decomposition step depends on a distinctive factor
based on the number of RNNs in MoRE. Since the used sentence generator gives a
stylized language corpus without paired images, our captioning model can do the
same. Besides, the styled and diverse captions are extracted without training
on a densely labeled or styled dataset. To validate this captioning model, we
use Microsoft COCO which is a standard factual image caption dataset. We show
that the proposed captioning model can generate a diverse and stylized image
captions without the necessity of extra-labeling. The results also show better
descriptions in terms of content accuracy.
- Abstract(参考訳): 視覚と自然言語処理の進歩により、画像キャプションの生成が求められている。
最近の論文で、Mathews、Xie、He [1]は、意味論とスタイルを分離してスタイル付きキャプションを生成する新しいモデルを拡張した。
本研究を継続して、特徴抽出のための画像エンコーダと、抽出された特徴の集合を単語集合に埋め込む再帰ネットワークの混合と、得られた単語をスタイライズされた文として結合する文生成器とを含む新しいキャプションモデルを開発した。
結果として得られたシステムはMixture of Recurrent Experts (MoRE)と呼ばれ、リカレントニューラルネットワーク(RNN)の行列の重み付けから特異値分解(SVD)を導出し、キャプションの多様性を高める新しいトレーニングアルゴリズムを使用している。
各分解ステップは、MoRE内のRNNの数に基づいて、特徴的な因子に依存する。
使用済み文生成器は、ペア画像のないスタイリング言語コーパスを提供するので、キャプションモデルも同じことができる。
さらに、スタイルや多様なキャプションは、密にラベル付けされた、あるいはスタイル化されたデータセット上でトレーニングすることなく抽出される。
このキャプションモデルを検証するために、標準的な実写画像キャプションデータセットであるMicrosoft COCOを使用する。
提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
結果は、コンテンツ精度の点で、より良い説明を示す。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Learning Distinct and Representative Styles for Image Captioning [24.13549951795951]
画像キャプションのための離散モード学習(DML)パラダイムを提案する。
私たちのイノベーティブなアイデアは、トレーニングキャプションコーパスのリッチモードを探求して、一連の「モード埋め込み」を学ぶことです。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
論文 参考訳(メタデータ) (2022-09-17T03:25:46Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。