論文の概要: Show, Interpret and Tell: Entity-aware Contextualised Image Captioning
in Wikipedia
- arxiv url: http://arxiv.org/abs/2209.10474v1
- Date: Wed, 21 Sep 2022 16:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:45:23.996285
- Title: Show, Interpret and Tell: Entity-aware Contextualised Image Captioning
in Wikipedia
- Title(参考訳): 表示、解釈、指示:wikipediaにおけるエンティティを意識したコンテキスト化画像キャプション
- Authors: Khanh Nguyen, Ali Furkan Biten, Andres Mafla, Lluis Gomez, Dimosthenis
Karatzas
- Abstract要約: 本稿では,文脈知識を統合することで,ウィキペディア画像のキャプションを行う新しいタスクを提案する。
具体的には、ウィキペディアの記事やウィキメディアの画像、それに付随する記述を共同で推論するモデルを作成します。
- 参考スコア(独自算出の注目度): 10.21762162291523
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Humans exploit prior knowledge to describe images, and are able to adapt
their explanation to specific contextual information, even to the extent of
inventing plausible explanations when contextual information and images do not
match. In this work, we propose the novel task of captioning Wikipedia images
by integrating contextual knowledge. Specifically, we produce models that
jointly reason over Wikipedia articles, Wikimedia images and their associated
descriptions to produce contextualized captions. Particularly, a similar
Wikimedia image can be used to illustrate different articles, and the produced
caption needs to be adapted to a specific context, therefore allowing us to
explore the limits of a model to adjust captions to different contextual
information. A particular challenging task in this domain is dealing with
out-of-dictionary words and Named Entities. To address this, we propose a
pre-training objective, Masked Named Entity Modeling (MNEM), and show that this
pretext task yields an improvement compared to baseline models. Furthermore, we
verify that a model pre-trained with the MNEM objective in Wikipedia
generalizes well to a News Captioning dataset. Additionally, we define two
different test splits according to the difficulty of the captioning task. We
offer insights on the role and the importance of each modality and highlight
the limitations of our model. The code, models and data splits are publicly
available at Upon acceptance.
- Abstract(参考訳): 人間は、画像を記述するために事前の知識を利用し、文脈情報と画像が一致しない場合に、妥当な説明を発明する範囲まで、その説明を特定の文脈情報に適用することができる。
本稿では,文脈知識の統合によるウィキペディア画像のキャプション手法を提案する。
具体的には、wikipediaの記事、ウィキメディア画像、およびそれらの関連記述を共同で推論し、文脈化されたキャプションを生成するモデルを作成する。
特に、類似のウィキメディア画像を用いて異なる記事の描写を行うことができ、生成されたキャプションは特定のコンテキストに適応する必要があるため、異なるコンテキスト情報にキャプションを調整するためのモデルの限界を探索することができる。
この領域で特に困難なタスクは、辞書外ワードと名前付きエンティティを扱うことです。
そこで本研究では,事前学習目標であるmasted named entity modeling (mnem)を提案し,このプリテキストタスクがベースラインモデルと比較して改善をもたらすことを示す。
さらに、ウィキペディアのMNEM目標で事前訓練されたモデルが、ニュースキャプションデータセットによく適応していることを検証する。
さらに,キャプションタスクの難易度に応じて2つの異なるテスト分割を定義する。
それぞれのモダリティの役割と重要性についての洞察を提供し、モデルの制限を強調します。
コード、モデル、データ分割は受理時に公開されている。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Paraphrase Acquisition from Image Captions [36.94459555199183]
本稿では,Web のキャプションをパラフレーズのリソースとして利用することを提案する。
英語のウィキペディアで字幕を解析し、編集者は異なる記事に対してしばしば同じ画像をレバーベットする。
2つの類似性次元に沿った特徴写像を導入し、異なるソースから来るパラフレーズのスタイルを特定する。
論文 参考訳(メタデータ) (2023-01-26T10:54:51Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Iconographic Image Captioning for Artworks [2.3859169601259342]
本研究は,Iconclass分類システムの概念を付加したアート画像の大規模データセットを利用する。
アノテーションはクリーンなテキスト記述に処理され、画像キャプションタスク上でディープニューラルネットワークモデルのトレーニングに適したデータセットを生成する。
画像データセットを用いて、トランスフォーマーに基づく視覚言語事前学習モデルを微調整する。
生成したキャプションの品質と新たなデータに一般化するモデルの能力について,新たな絵画コレクションにモデルを適用し,一般的なキャプションと芸術ジャンルの関係を解析することにより検討する。
論文 参考訳(メタデータ) (2021-02-07T23:11:33Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Understanding Guided Image Captioning Performance across Domains [22.283016988026926]
本稿では,画像キャプションが重視すべき概念を,ガイドテキストと呼ばれる追加入力を用いて制御する手法を提案する。
人的評価の結果から,画像キャプションを組み込むには,大規模で制限のない領域トレーニングデータセットへのアクセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T00:05:02Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。