論文の概要: CAPTION: Correction by Analyses, POS-Tagging and Interpretation of
Objects using only Nouns
- arxiv url: http://arxiv.org/abs/2010.00839v1
- Date: Fri, 2 Oct 2020 08:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:42:21.845163
- Title: CAPTION: Correction by Analyses, POS-Tagging and Interpretation of
Objects using only Nouns
- Title(参考訳): キャプション:名詞のみを用いた分析・posタグ化・解釈による補正
- Authors: Leonardo Anjoletto Ferreira, Douglas De Rizzo Meneghetti, Paulo
Eduardo Santos
- Abstract要約: 本研究では,物体検出のためのディープラーニング手法と自然言語処理を組み合わせた画像キャプションの検証手法を提案する。
FOIL-COCOデータセットでは,MS-COCO画像データセットに表されるオブジェクトのみを用いて,様々な画像に対して正しいキャプションと誤りのキャプションを提供するため,本手法を検証した。
- 参考スコア(独自算出の注目度): 1.4502611532302039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Deep Learning (DL) methods have shown an excellent performance in
image captioning and visual question answering. However, despite their
performance, DL methods do not learn the semantics of the words that are being
used to describe a scene, making it difficult to spot incorrect words used in
captions or to interchange words that have similar meanings. This work proposes
a combination of DL methods for object detection and natural language
processing to validate image's captions. We test our method in the FOIL-COCO
data set, since it provides correct and incorrect captions for various images
using only objects represented in the MS-COCO image data set. Results show that
our method has a good overall performance, in some cases similar to the human
performance.
- Abstract(参考訳): 近年,Deep Learning (DL) 法は画像キャプションや視覚的質問応答において優れた性能を示している。
しかし、その性能にもかかわらず、dlメソッドはシーンを記述するために使われる単語の意味を学習しないため、キャプションで使われる不正確な単語を見つけたり、類似した意味を持つ単語を交換することが困難である。
本研究では,オブジェクト検出のためのdl法と,画像のキャプションを検証する自然言語処理を組み合わせた手法を提案する。
FOIL-COCOデータセットでは,MS-COCO画像データセットに表されるオブジェクトのみを用いて,様々な画像に対して正しいキャプションと誤ったキャプションを提供する。
その結果,提案手法は全体の性能が良好であり,人的性能に類似する場合もある。
関連論文リスト
- Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Scene Text Recognition with Image-Text Matching-guided Dictionary [17.073688809336456]
Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
論文 参考訳(メタデータ) (2023-05-08T07:47:49Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Tell me what you see: A zero-shot action recognition method based on
natural language descriptions [3.136605193634262]
ビデオから意味情報を抽出するビデオキャプション手法を提案する。
私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。
複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
論文 参考訳(メタデータ) (2021-12-18T17:44:07Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Removing Word-Level Spurious Alignment between Images and
Pseudo-Captions in Unsupervised Image Captioning [37.14912430046118]
教師なし画像キャプション(unsupervised image captioning)は、画像-sentenceペアの監督なしにキャプションを生成することを目的とした課題である。
本稿では,画像特徴を疑似キャプチャにおいて最も信頼できる単語のみに合わせるように訓練した,単純なゲーティング機構を提案する。
論文 参考訳(メタデータ) (2021-04-28T16:36:52Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。