論文の概要: The Role of Syntactic Planning in Compositional Image Captioning
- arxiv url: http://arxiv.org/abs/2101.11911v1
- Date: Thu, 28 Jan 2021 10:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-01-31 18:29:38.519201
- Title: The Role of Syntactic Planning in Compositional Image Captioning
- Title(参考訳): 合成画像キャプションにおける構文計画の役割
- Authors: Emanuele Bugliarello, Desmond Elliott
- Abstract要約: 本研究では,キャプションの構文構造を計画し,構成一般化を改善する手法について検討する。
実験の結果,RNNモデルとTransformerモデルの両方でトークンとタグの一般化を共同でモデル化し,標準メトリクスの性能も向上した。
- 参考スコア(独自算出の注目度): 17.363891408746298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning has focused on generalizing to images drawn from the same
distribution as the training set, and not to the more challenging problem of
generalizing to different distributions of images. Recently, Nikolaus et al.
(2019) introduced a dataset to assess compositional generalization in image
captioning, where models are evaluated on their ability to describe images with
unseen adjective-noun and noun-verb compositions. In this work, we investigate
different methods to improve compositional generalization by planning the
syntactic structure of a caption. Our experiments show that jointly modeling
tokens and syntactic tags enhances generalization in both RNN- and
Transformer-based models, while also improving performance on standard metrics.
- Abstract(参考訳): 画像キャプションは、トレーニングセットと同じ分布から描かれた画像に一般化することに注力しており、画像の異なる分布に一般化するより難しい問題ではない。
最近、ニコラウスら。
(2019) は画像キャプションにおける合成一般化を評価するデータセットを導入し, 未知の形容詞・名詞・動詞の合成で画像を記述する能力をモデルに評価した。
本研究では,キャプションの構文構造を計画し,構成一般化を改善するための様々な手法について検討する。
実験の結果,トークンと構文タグを併用することにより,RNNモデルとTransformerモデルの両方での一般化が促進され,標準メトリクスの性能も向上することがわかった。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - The Role of Linguistic Priors in Measuring Compositional Generalization
of Vision-Language Models [64.43764443000003]
我々は、言語的先行と画像とテキスト間の相互作用という、視覚言語的構成性の2つの源を同定する。
このような言語的前提を伴わない新しい構成性尺度を提案する。
論文 参考訳(メタデータ) (2023-10-04T12:48:33Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Improving Compositional Generalization in Classification Tasks via
Structure Annotations [33.90268697120572]
人間は構成を一般化する能力は大きいが、最先端のニューラルモデルはそれを行うのに苦労している。
まず、自然言語のシーケンス・ツー・シーケンス・データセットを、合成の一般化も必要とする分類データセットに変換する方法について検討する。
第二に、構造的ヒントを提供すること(特にトランスフォーマーモデルの注意マスクとしてパースツリーとエンティティリンクを提供すること)は、構成の一般化に役立つことを示す。
論文 参考訳(メタデータ) (2021-06-19T06:07:27Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z) - Image Captioning with Compositional Neural Module Networks [18.27510863075184]
自然言語の合成性と順序性の両方を探求する画像キャプションのための階層的枠組みを導入する。
提案アルゴリズムは,入力画像で検出された各オブジェクトの特異な側面に対応する異なるモジュールに選択的に参加することで,詳細に富んだ文を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-10T20:58:04Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。