論文の概要: Winoground: Probing Vision and Language Models for Visio-Linguistic
Compositionality
- arxiv url: http://arxiv.org/abs/2204.03162v1
- Date: Thu, 7 Apr 2022 02:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-09 06:04:18.504398
- Title: Winoground: Probing Vision and Language Models for Visio-Linguistic
Compositionality
- Title(参考訳): winoground: visio-linguistic compositionalityのための視覚探索と言語モデル
- Authors: Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina
Williams, Douwe Kiela, Candace Ross
- Abstract要約: 本稿では,視覚・言語モデルによる視覚・言語合成推論の能力を評価するための新しいタスクとデータセットを提案する。
2つの画像と2つのキャプションが与えられた場合、目的はそれらを正しくマッチングすることである。
私たちはさまざまな最先端のビジョンと言語モデルを調査し、驚くべきことに、それらが偶然よりもはるかに優れているものはないことに気付きました。
- 参考スコア(独自算出の注目度): 42.17866394327228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel task and dataset for evaluating the ability of vision and
language models to conduct visio-linguistic compositional reasoning, which we
call Winoground. Given two images and two captions, the goal is to match them
correctly - but crucially, both captions contain a completely identical set of
words, only in a different order. The dataset was carefully hand-curated by
expert annotators and is labeled with a rich set of fine-grained tags to assist
in analyzing model performance. We probe a diverse range of state-of-the-art
vision and language models and find that, surprisingly, none of them do much
better than chance. Evidently, these models are not as skilled at
visio-linguistic compositional reasoning as we might have hoped. We perform an
extensive analysis to obtain insights into how future work might try to
mitigate these models' shortcomings. We aim for Winoground to serve as a useful
evaluation set for advancing the state of the art and driving further progress
in the field. The dataset is available at
https://huggingface.co/datasets/facebook/winoground.
- Abstract(参考訳): ヴィノグラウンドと呼ばれる視覚言語合成推論を行うための視覚モデルと言語モデルの能力を評価するための新しいタスクとデータセットを提案する。
2つの画像と2つのキャプションが与えられた場合、目標はそれらを正しく一致させることだ。
データセットはエキスパートアノテータによって慎重に手作業で計算され、モデルパフォーマンスの分析を支援するために、豊富なきめ細かいタグがラベル付けされている。
さまざまな最先端のビジョンと言語モデルを調査し、驚くべきことに、それらが偶然よりも優れているものはないことに気付きました。
明らかに、これらのモデルは私たちが期待したように、視覚言語的な構成推論に熟練していない。
我々は、これらのモデルの欠点を緩和しようとする今後の作業について洞察を得るために、広範な分析を行います。
我々は,winogroundを,芸術の進歩と分野のさらなる発展を促すための有用な評価セットとして利用することを目指している。
データセットはhttps://huggingface.co/datasets/facebook/winogroundで利用可能である。
関連論文リスト
- Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。
約960万の視覚言語対のデータセットをVHR画像で収集しました。
結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T06:36:08Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。
これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。
画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文 参考訳(メタデータ) (2022-11-17T18:52:19Z) - Why is Winoground Hard? Investigating Failures in Visuolinguistic
Compositionality [32.930639437999275]
Winogroundデータセットは、ペア画像と英語のキャプションにマッチするモデルに挑戦する。
我々は、Winogroundタスクの解決には、構成言語理解だけでなく、他の多くの能力も必要であることを示す。
本分析は,視覚的およびテキスト的表現を融合させることで,視覚言語モデルにおける大きな課題が生じることを示唆している。
論文 参考訳(メタデータ) (2022-11-01T22:16:58Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。