論文の概要: HL Dataset: Visually-grounded Description of Scenes, Actions and
Rationales
- arxiv url: http://arxiv.org/abs/2302.12189v3
- Date: Mon, 25 Sep 2023 07:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 03:54:10.795448
- Title: HL Dataset: Visually-grounded Description of Scenes, Actions and
Rationales
- Title(参考訳): HLデータセット - シーン、アクション、合理性の視覚的な説明
- Authors: Michele Cafagna, Kees van Deemter, Albert Gatt
- Abstract要約: 我々はCOCOデータセットから14997の画像を拡張し、新たに134,973の人称注釈(ハイレベル)キャプションをセットしたデータセットを提示する。
さらに、このデータセットを、独立した読者の集合から収集した信頼度スコアと、合成的に生成されたナラティブキャプションのセットで拡張する。
- 参考スコア(独自算出の注目度): 5.010418546872244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current captioning datasets focus on object-centric captions, describing the
visible objects in the image, e.g. "people eating food in a park". Although
these datasets are useful to evaluate the ability of Vision & Language models
to recognize and describe visual content, they do not support controlled
experiments involving model testing or fine-tuning, with more high-level
captions, which humans find easy and natural to produce. For example, people
often describe images based on the type of scene they depict ('people at a
holiday resort') and the actions they perform ('people having a picnic'). Such
descriptions draw on personal experience and commonsense assumptions. We
present the High-Level Dataset a dataset extending 14997 images from the COCO
dataset, aligned with a new set of 134,973 human-annotated (high-level)
captions collected along three axes: scenes, actions, and rationales. We
further extend this dataset with confidence scores collected from an
independent set of readers, as well as a set of narrative captions generated
synthetically, by combining each of the three axes. We describe this dataset
and analyse it extensively. We also present baseline results for the High-Level
Captioning task.
- Abstract(参考訳): 現在のキャプションデータセットはオブジェクト中心のキャプションに焦点を合わせ、「公園で食べ物を食べる人」など、画像中の可視なオブジェクトを記述する。
これらのデータセットは視覚的コンテンツを認識・記述するビジョン&言語モデルの能力を評価するのに有用であるが、モデルテストや微調整を含む制御された実験をサポートしない。
例えば、自分の描写する場面の種類(「休暇場の人々」)や行動(「ピクニックをする人」)に基づいてイメージを記述することが多い。
このような記述は個人的な経験や常識的な前提に基づいている。
我々は、COCOデータセットから14997の画像を拡張したデータセットを提示し、シーン、アクション、合理性という3つの軸に沿って収集された134,973の人称(高レベル)キャプションを新たにセットした。
さらに、このデータセットを、独立した読者の集合から収集した信頼度スコアと、3つの軸をそれぞれ組み合わせて合成的に生成された物語キャプションのセットで拡張する。
このデータセットを記述し、広範囲に分析する。
また,高レベルキャプションタスクのベースライン結果も提示する。
関連論文リスト
- StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Understanding Cross-modal Interactions in V&L Models that Generate Scene
Descriptions [3.7957452405531256]
本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。
映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。
本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
論文 参考訳(メタデータ) (2022-11-09T15:33:51Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - RedCaps: web-curated image-text data created by the people, for the
people [12.58157541985447]
Redditから収集された1200万のイメージテキストペアの大規模なデータセットであるRedCapsを紹介します。
Redditの画像やキャプションは、さまざまなオブジェクトやシーンを描いて記述している。
我々は、RedCapsで訓練されたキャプションモデルが、人間に好まれるリッチで多様なキャプションを生成し、多くの下流タスクに伝達する視覚表現を学ぶことを示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:34Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。