論文の概要: Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning
- arxiv url: http://arxiv.org/abs/2105.04143v1
- Date: Mon, 10 May 2021 06:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:17:39.336669
- Title: Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning
- Title(参考訳): 画像パラグラフキャプションにおける視覚特徴と階層的セマンティックトピックのマッチング
- Authors: Dandan Guo, Ruiying Lu, Bo Chen, Zequn Zeng, Mingyuan Zhou
- Abstract要約: 本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
- 参考スコア(独自算出の注目度): 50.08729005865331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Observing a set of images and their corresponding paragraph-captions, a
challenging task is to learn how to produce a semantically coherent paragraph
to describe the visual content of an image. Inspired by recent successes in
integrating semantic topics into this task, this paper develops a plug-and-play
hierarchical-topic-guided image paragraph generation framework, which couples a
visual extractor with a deep topic model to guide the learning of a language
model. To capture the correlations between the image and text at multiple
levels of abstraction and learn the semantic topics from images, we design a
variational inference network to build the mapping from image features to
textual captions. To guide the paragraph generation, the learned hierarchical
topics and visual features are integrated into the language model, including
Long Short-Term Memory (LSTM) and Transformer, and jointly optimized.
Experiments on public dataset demonstrate that the proposed models, which are
competitive with many state-of-the-art approaches in terms of standard
evaluation metrics, can be used to both distill interpretable multi-layer
topics and generate diverse and coherent captions.
- Abstract(参考訳): 画像の集合とそれに対応する段落を観察するには,画像の視覚的内容を記述するために意味的に一貫性のある段落を生成する方法を学ぶことが課題である。
本稿では,このタスクに意味的トピックを統合することの最近の成功に触発されて,視覚的抽出器と深いトピックモデルとを結合して言語モデルの学習を導く,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルで画像とテキストの相関関係を捉え,画像から意味的トピックを学習するために,画像特徴からテキストキャプションへのマッピングを構築するための変分推論ネットワークを設計する。
段落生成を導くために、学習した階層的トピックと視覚的特徴をLong Short-Term Memory (LSTM)やTransformerなどの言語モデルに統合し、共同最適化する。
パブリックデータセットにおける実験は、標準評価メトリクスの観点から多くの最先端のアプローチと競合する、提案モデルが、解釈可能な多層トピックを蒸留し、多様で一貫性のあるキャプションを生成するのに使用できることを示した。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。