論文の概要: Generating image captions with external encyclopedic knowledge
- arxiv url: http://arxiv.org/abs/2210.04806v1
- Date: Mon, 10 Oct 2022 16:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:38:48.510199
- Title: Generating image captions with external encyclopedic knowledge
- Title(参考訳): 外部百科事典知識を用いた画像キャプションの生成
- Authors: Sofia Nikiforova, Tejaswini Deoskar, Denis Paperno, Yoad Winter
- Abstract要約: 我々は、画像固有の百科事典データを広範囲に活用するエンドツーエンドのキャプション生成システムを構築した。
われわれのアプローチは、画像位置を用いて、外部知識ベースで関連するオープンドメインの事実を識別する新しい方法を含む。
我々のシステムは、自然に生成された知識に富んだキャプションを持つ新しいデータセットで訓練され、テストされている。
- 参考スコア(独自算出の注目度): 1.452875650827562
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accurately reporting what objects are depicted in an image is largely a
solved problem in automatic caption generation. The next big challenge on the
way to truly humanlike captioning is being able to incorporate the context of
the image and related real world knowledge. We tackle this challenge by
creating an end-to-end caption generation system that makes extensive use of
image-specific encyclopedic data. Our approach includes a novel way of using
image location to identify relevant open-domain facts in an external knowledge
base, with their subsequent integration into the captioning pipeline at both
the encoding and decoding stages. Our system is trained and tested on a new
dataset with naturally produced knowledge-rich captions, and achieves
significant improvements over multiple baselines. We empirically demonstrate
that our approach is effective for generating contextualized captions with
encyclopedic knowledge that is both factually accurate and relevant to the
image.
- Abstract(参考訳): 画像に写っているオブジェクトを正確に報告することは、自動キャプション生成において主に解決された問題である。
真の人間的なキャプションへの道のりにおける次の大きな課題は、画像のコンテキストと関連する現実世界の知識を組み込むことだ。
我々は,画像固有百科事典データを利用したエンドツーエンドキャプション生成システムを構築することで,この課題に取り組む。
提案手法は,外部知識ベースにおける関連するオープンドメイン事実を画像位置から識別する新しい手法と,エンコードとデコードの両方の段階でキャプションパイプラインに統合する手法を含む。
本システムは,自然に生成した知識豊富なキャプションを持つ新しいデータセット上で訓練およびテストを行い,複数のベースラインに対して大幅な改善を実現する。
提案手法は,事実的正確かつ関連性の高い百科事典知識を持つ文脈的キャプションを生成するのに有効であることを示す。
関連論文リスト
- Altogether: Image Captioning via Re-aligning Alt-text [118.29542883805405]
画像に関連付けられた既存のalt-textを編集・修正する鍵となるアイデアに基づいて、Altogetherの原理的なアプローチについて検討する。
トレーニングデータを生成するために、アノテータは既存のalt-textから始まり、それを複数のラウンドで画像コンテンツにアライメントする。
我々は、このデータに基づいて、大規模にアルトテキストを再調整するプロセスを一般化するキャプタを訓練する。
論文 参考訳(メタデータ) (2024-10-22T17:59:57Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Towards Accurate Text-based Image Captioning with Content Diversity
Exploration [46.061291298616354]
テキストによる画像の読み書きを目的としたテキストベースの画像キャプション(TextCap)は、マシンが詳細で複雑なシーン環境を理解する上で不可欠である。
既存の手法では、従来の画像キャプション手法を拡張して、単一のグローバルキャプションで画像全体のシーンを記述することに注力している。
複雑なテキストと視覚情報は、1つのキャプション内でうまく記述できないため、これは不可能です。
論文 参考訳(メタデータ) (2021-04-23T08:57:47Z) - Integrating Image Captioning with Rule-based Entity Masking [23.79124007406315]
本稿では,画像キャプションを明示的なオブジェクト(知識グラフエンティティなど)で選択するための新しいフレームワークを提案する。
モデルでは、まず、人解釈マスクに従ってキャプションに含まれるどのローカルエンティティを明示的に選択し、選択したエンティティに出席して適切なキャプションを生成する。
論文 参考訳(メタデータ) (2020-07-22T21:27:12Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。