論文の概要: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
- arxiv url: http://arxiv.org/abs/2212.07796v1
- Date: Tue, 13 Dec 2022 19:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:58:28.351335
- Title: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
- Title(参考訳): CREPE:Vision-Language Foundationはどのようにして構成できるのか?
- Authors: Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao,
Ranjay Krishna
- Abstract要約: 本稿では,認知科学文献が認識する構成性の2つの重要な側面,体系性と生産性を計測する新しい構成性評価ベンチマーク CREPEを紹介する。
Recall@1は8%まで低下し,新しい構成が検索セットを支配下に置くと,モデル性能は一貫して低下することがわかった。
生産性のために、モデルの検索成功は複雑さが増すにつれて崩壊し、しばしば高い複雑性のランダムな確率に近づく。
- 参考スコア(独自算出の注目度): 10.958279688917434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental characteristic common to both human vision and natural language
is their compositional nature. Yet, despite the performance gains contributed
by large vision and language pretraining, we find that - across 6 architectures
trained with 4 algorithms on massive datasets - they exhibit little
compositionality. To arrive at this conclusion, we introduce a new
compositionality evaluation benchmark CREPE which measures two important
aspects of compositionality identified by cognitive science literature:
systematicity and productivity. To measure systematicity, CREPE consists of
three test datasets. The three test sets are designed to test models trained on
three of the popular training datasets: CC-12M, YFCC-15M, and LAION-400M. They
contain 385K, 385K, and 373K image-text pairs and 237K, 210K, and 178K hard
negative captions. To test productivity, CREPE contains 17K image-text pairs
with nine different complexities plus 246K hard negative captions with atomic,
swapping, and negation foils. The datasets are generated by repurposing the
Visual Genome scene graphs and region descriptions and applying handcrafted
templates and GPT-3. For systematicity, we find that model performance
decreases consistently when novel compositions dominate the retrieval set, with
Recall@1 dropping by up to 8%. For productivity, models' retrieval success
decays as complexity increases, frequently nearing random chance at high
complexity. These results hold regardless of model and training dataset size.
- Abstract(参考訳): 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。
しかし、大きなビジョンと言語の事前トレーニングによるパフォーマンス向上にもかかわらず、大規模なデータセットで4つのアルゴリズムでトレーニングされた6つのアーキテクチャで、構成性がほとんどないことがわかった。
この結論に達するために、認知科学文献で識別される構成性の2つの重要な側面、体系性と生産性を測定する新しい構成性評価ベンチマーク CREPEを導入する。
系統性を測定するために、CREPEは3つのテストデータセットで構成される。
3つのテストセットは、CC-12M、YFCC-15M、LAION-400Mの3つのトレーニングデータセットでトレーニングされたモデルをテストするように設計されている。
385K、385K、373Kイメージテキスト対、237K、210K、178Kハードネガティブキャプションを含む。
生産性をテストするために、CREPEは9つの異なる複雑さを持つ17Kイメージテキスト対と、原子、スワッピング、否定翼を持つ246Kハードネガティブキャプションを含んでいる。
データセットは、Visual Genomeシーングラフとリージョン記述を再取得し、手作りテンプレートとGPT-3を適用して生成される。
Recall@1は8%まで低下し,新しい構成が検索セットを支配下に置くと,モデル性能は一貫して低下することがわかった。
生産性にとって、モデルの検索成功は複雑さが増すにつれて減少し、複雑度の高いランダムな機会に近づく。
これらの結果は、モデルとトレーニングデータセットのサイズにかかわらず保持される。
関連論文リスト
- Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ViLLA: Fine-Grained Vision-Language Representation Learning from
Real-World Data [8.905439446173503]
視覚言語モデル(VLM)は一般的に、Webから取得した画像キャプチャペアからなるデータセットに基づいて訓練される。
医療データなどの実世界のマルチモーダルデータセットは、はるかに複雑です。
ViLLAは、複雑なデータセットからきめ細かい領域属性関係をキャプチャするために訓練されている。
論文 参考訳(メタデータ) (2023-08-22T05:03:09Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。
Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。
我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文 参考訳(メタデータ) (2023-05-22T17:59:43Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - When and why vision-language models behave like bags-of-words, and what
to do about it? [39.90099818890488]
我々は、VLMが様々な種類の関係、属性、順序を理解する能力を評価するために、属性、関係、順序のベンチマークを作成します。
AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。
我々は、最先端のVLMが、リレーショナル理解が不十分で、オブジェクトを属性にリンクする場合に、ブルンダーが可能であることを示し、注文感度の深刻な欠如を示す。
論文 参考訳(メタデータ) (2022-10-04T22:13:25Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。