論文の概要: Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models
- arxiv url: http://arxiv.org/abs/2003.11743v2
- Date: Fri, 27 Mar 2020 09:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:13:33.568536
- Title: Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models
- Title(参考訳): Egoshots - 画像キャプションモデルの多様性を評価するエゴビジョン・ライフログデータセットとセマンティック・フィデリティ・メトリック
- Authors: Pranav Agarwal, Alejandro Betancourt, Vana Panagiotou and Natalia
D\'iaz-Rodr\'iguez
- Abstract要約: 我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
- 参考スコア(独自算出の注目度): 63.11766263832545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning models have been able to generate grammatically correct and
human understandable sentences. However most of the captions convey limited
information as the model used is trained on datasets that do not caption all
possible objects existing in everyday life. Due to this lack of prior
information most of the captions are biased to only a few objects present in
the scene, hence limiting their usage in daily life. In this paper, we attempt
to show the biased nature of the currently existing image captioning models and
present a new image captioning dataset, Egoshots, consisting of 978 real life
images with no captions. We further exploit the state of the art pre-trained
image captioning and object recognition networks to annotate our images and
show the limitations of existing works. Furthermore, in order to evaluate the
quality of the generated captions, we propose a new image captioning metric,
object based Semantic Fidelity (SF). Existing image captioning metrics can
evaluate a caption only in the presence of their corresponding annotations;
however, SF allows evaluating captions generated for images without
annotations, making it highly useful for real life generated captions.
- Abstract(参考訳): 画像キャプションモデルは文法的に正しい人間の理解可能な文を生成することができる。
しかし、ほとんどのキャプションは、日常に存在するすべての可能なオブジェクトをキャプションしないデータセットでトレーニングされているため、限られた情報を伝える。
このような事前情報がないため、ほとんどのキャプションはシーンに存在する少数のオブジェクトに偏っているため、日常生活での使用は制限される。
本稿では,現在存在する画像キャプションモデルのバイアス特性を示すとともに,キャプションのない実生活画像978枚からなる新しい画像キャプションデータセットであるEgoshotsを提案する。
さらに,事前学習された画像キャプションと物体認識ネットワークを活用し,画像に注釈を付け,既存の作品の限界を示す。
さらに, 生成キャプションの品質を評価するために, 新たなキャプション指標, object based semantic fidelity (sf) を提案する。
既存の画像キャプションメトリクスは、対応するアノテーションの存在下でのみキャプションを評価することができるが、SFはアノテーションなしで画像に生成されたキャプションを評価できるため、実生活で生成されたキャプションにとって非常に有用である。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。