論文の概要: HL Dataset: Grounding High-Level Linguistic Concepts in Vision
- arxiv url: http://arxiv.org/abs/2302.12189v1
- Date: Thu, 23 Feb 2023 17:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 14:23:55.353642
- Title: HL Dataset: Grounding High-Level Linguistic Concepts in Vision
- Title(参考訳): HLデータセット:視覚における高レベル言語概念の接地
- Authors: Michele Cafagna, Kees van Deemter, Albert Gatt
- Abstract要約: 提案するHigh-Levelデータセットは,COCOデータセットの14997イメージを,134973人の注釈付き(高レベル)抽象キャプションで拡張したデータセットである。
本稿では、抽象概念のマルチモーダルグラウンド化と、モデルが視覚言語表現を豊かにするために、モデルがどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 3.7957452405531256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current captioning datasets, focus on object-centric captions, describing the
visible objects in the image, often ending up stating the obvious (for humans),
e.g. "people eating food in a park". Although these datasets are useful to
evaluate the ability of Vision & Language models to recognize the visual
content, they lack in expressing trivial abstract concepts, e.g. "people having
a picnic". Such concepts are licensed by human's personal experience and
contribute to forming common sense assumptions. We present the High-Level
Dataset; a dataset extending 14997 images of the COCO dataset with 134973
human-annotated (high-level) abstract captions collected along three axes:
scenes, actions and rationales. We describe and release such dataset and we
show how it can be used to assess models' multimodal grounding of abstract
concepts and enrich models' visio-lingusitic representations. Moreover, we
describe potential tasks enabled by this dataset involving high- and low-level
concepts interactions.
- Abstract(参考訳): 現在のキャプションデータセットは、オブジェクト中心のキャプションに焦点を当て、画像内の可視なオブジェクトを記述し、しばしば(人間にとって)明らかな(例えば「公園で食べ物を食べている人」)を記述する。
これらのデータセットは視覚的コンテンツを認識できるビジョン・アンド・ランゲージ・モデルの能力を評価するのに有用であるが、「ピクニックをする人々」のような簡単な抽象概念を表現できない。
このような概念は人間の個人的な経験によってライセンスされ、常識的な仮定の形成に寄与する。
このデータセットは、COCOデータセットの14997イメージを拡張し、134973人の注釈付き(ハイレベル)抽象キャプションを3つの軸(シーン、アクション、合理性)に沿って収集する。
このようなデータセットを記述・公開し,抽象概念のマルチモーダルな接地の評価や,モデルのビシオ言語表現の充実に利用できることを示す。
さらに,このデータセットによって実現される潜在的なタスクについて述べる。
関連論文リスト
- StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Understanding Cross-modal Interactions in V&L Models that Generate Scene
Descriptions [3.7957452405531256]
本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。
映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。
本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
論文 参考訳(メタデータ) (2022-11-09T15:33:51Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - RedCaps: web-curated image-text data created by the people, for the
people [12.58157541985447]
Redditから収集された1200万のイメージテキストペアの大規模なデータセットであるRedCapsを紹介します。
Redditの画像やキャプションは、さまざまなオブジェクトやシーンを描いて記述している。
我々は、RedCapsで訓練されたキャプションモデルが、人間に好まれるリッチで多様なキャプションを生成し、多くの下流タスクに伝達する視覚表現を学ぶことを示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:34Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。