論文の概要: Why is Winoground Hard? Investigating Failures in Visuolinguistic
Compositionality
- arxiv url: http://arxiv.org/abs/2211.00768v1
- Date: Tue, 1 Nov 2022 22:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:07:01.702993
- Title: Why is Winoground Hard? Investigating Failures in Visuolinguistic
Compositionality
- Title(参考訳): winogroundがなぜ難しいのか?
Visuolinguistic compositionalityにおける失敗の調査
- Authors: Anuj Diwan, Layne Berry, Eunsol Choi, David Harwath, Kyle Mahowald
- Abstract要約: Winogroundデータセットは、ペア画像と英語のキャプションにマッチするモデルに挑戦する。
我々は、Winogroundタスクの解決には、構成言語理解だけでなく、他の多くの能力も必要であることを示す。
本分析は,視覚的およびテキスト的表現を融合させることで,視覚言語モデルにおける大きな課題が生じることを示唆している。
- 参考スコア(独自算出の注目度): 32.930639437999275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent visuolinguistic pre-trained models show promising progress on various
end tasks such as image retrieval and video captioning. Yet, they fail
miserably on the recently proposed Winoground dataset, which challenges models
to match paired images and English captions, with items constructed to overlap
lexically but differ in meaning (e.g., "there is a mug in some grass" vs.
"there is some grass in a mug"). By annotating the dataset using new
fine-grained tags, we show that solving the Winoground task requires not just
compositional language understanding, but a host of other abilities like
commonsense reasoning or locating small, out-of-focus objects in low-resolution
images. In this paper, we identify the dataset's main challenges through a
suite of experiments on related tasks (probing task, image retrieval task),
data augmentation, and manual inspection of the dataset. Our analysis suggests
that a main challenge in visuolinguistic models may lie in fusing visual and
textual representations, rather than in compositional language understanding.
We release our annotation and code at
https://github.com/ajd12342/why-winoground-hard .
- Abstract(参考訳): 最近のvisuolinguistic pre-trained modelsは、画像検索やビデオキャプションといった様々なエンドタスクにおいて有望な進歩を示している。
しかし、最近提案されたwinogroundデータセットは、ペア画像と英語のキャプションをマッチさせるモデルに挑戦し、語彙的に重なるが意味が異なるアイテム(例えば「草の中にマグカップがある」と「マグカップの中に草がある」)に挑戦している。
新しいきめ細かいタグを使ってデータセットに注釈を付けることで、winogroundタスクの解決には合成言語理解だけでなく、commonsense推論や低解像度画像における焦点を絞った小さなオブジェクトの特定といった他の能力が必要であることを示した。
本稿では,関連するタスク(プロジェクションタスク,画像検索タスク),データ拡張,データセットの手動検査など)に関する一連の実験を通じて,データセットの主な課題を明らかにする。
分析の結果,本研究の課題は,構成言語理解よりも視覚表現とテキスト表現の融合にある可能性が示唆された。
アノテーションとコードはhttps://github.com/ajd12342/why-winoground-hard でリリースしています。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Picturing Ambiguity: A Visual Twist on the Winograd Schema Challenge [5.326589324665934]
WinoVisは、マルチモーダルコンテキストにおける代名詞の曖昧さに関するテキスト・ツー・イメージ・モデルに特化して設計されたデータセットである。
連続したモデルバージョンの評価によると、段階的な進歩にもかかわらず、Stable Diffusion 2.0はWinoVisで56.7%の精度を達成した。
さらなるエラー分析は、複雑な視覚の世界を解釈し、相互作用する能力において、テキスト・ツー・イメージ・モデルを進めることを目的とした将来の研究にとって重要な領域を特定する。
論文 参考訳(メタデータ) (2024-05-25T15:28:22Z) - Satellite Captioning: Large Language Models to Augment Labeling [0.0]
キャプションデータセットは、言語の違い、文法、そして人間がそれらを生成するのに要する時間により、はるかに難しい課題を示します。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合、問題となる。
本稿では,キャプションデータセットにおける潜在的な情報やコミュニケーションの欠陥の問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-12-18T03:21:58Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Facial Expression Translation using Landmark Guided GANs [84.64650795005649]
表情から表現への変換のための強力なランドマークガイド付き生成支援ネットワーク(LandmarkGAN)を提案する。
提案したLandmarkGANは,1つの画像のみを用いて,最先端のアプローチよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-09-05T20:52:42Z) - Winoground: Probing Vision and Language Models for Visio-Linguistic
Compositionality [42.17866394327228]
本稿では,視覚・言語モデルによる視覚・言語合成推論の能力を評価するための新しいタスクとデータセットを提案する。
2つの画像と2つのキャプションが与えられた場合、目的はそれらを正しくマッチングすることである。
私たちはさまざまな最先端のビジョンと言語モデルを調査し、驚くべきことに、それらが偶然よりもはるかに優れているものはないことに気付きました。
論文 参考訳(メタデータ) (2022-04-07T02:17:05Z) - Who's Waldo? Linking People Across Text and Images [56.40556801773923]
人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。
我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。
本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T17:36:49Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。