論文の概要: Visual Semantic Relatedness Dataset for Image Captioning
- arxiv url: http://arxiv.org/abs/2301.08784v1
- Date: Fri, 20 Jan 2023 20:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 16:34:27.817259
- Title: Visual Semantic Relatedness Dataset for Image Captioning
- Title(参考訳): 画像キャプションのための視覚意味関連データセット
- Authors: Ahmed Sabir, Francesc Moreno-Noguer, Llu\'is Padr\'o
- Abstract要約: そこで本研究では,COCO キャプションがシーン情報とともに拡張された,キャプションのためのテキストビジュアルコンテキストデータセットを提案する。
この情報は、テキスト類似性や意味的関係法など、任意のNLPタスクをキャプションシステムに活用するために使用することができる。
- 参考スコア(独自算出の注目度): 27.788077963411624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern image captioning system relies heavily on extracting knowledge from
images to capture the concept of a static story. In this paper, we propose a
textual visual context dataset for captioning, in which the publicly available
dataset COCO Captions (Lin et al., 2014) has been extended with information
about the scene (such as objects in the image). Since this information has a
textual form, it can be used to leverage any NLP task, such as text similarity
or semantic relation methods, into captioning systems, either as an end-to-end
training strategy or a post-processing based approach.
- Abstract(参考訳): 現代の画像キャプションシステムは、静的ストーリーの概念を捉えるために画像から知識を抽出することに大きく依存している。
本稿では,画像中のオブジェクトなどのシーンに関する情報とともに,一般公開されているCOCOキャプション(Lin et al., 2014)を拡張したキャプションのためのテキストビジュアルコンテキストデータセットを提案する。
この情報にはテキスト形式があるため、テキスト類似性や意味関係法といったあらゆるnlpタスクを、エンドツーエンドのトレーニング戦略や後処理ベースのアプローチとしてキャプションシステムに活用することができる。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Generating image captions with external encyclopedic knowledge [1.452875650827562]
我々は、画像固有の百科事典データを広範囲に活用するエンドツーエンドのキャプション生成システムを構築した。
われわれのアプローチは、画像位置を用いて、外部知識ベースで関連するオープンドメインの事実を識別する新しい方法を含む。
我々のシステムは、自然に生成された知識に富んだキャプションを持つ新しいデータセットで訓練され、テストされている。
論文 参考訳(メタデータ) (2022-10-10T16:09:21Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Textual Visual Semantic Dataset for Text Spotting [27.788077963411624]
野生のテキストスポッティングは、画像に現れるテキストを検出して認識する。
これは、テキストが現れるコンテキストの複雑さのため、難しい問題である。
野生におけるテキストスポッティングのための視覚的コンテキストデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-21T23:58:16Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。