論文の概要: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
- arxiv url: http://arxiv.org/abs/2212.07796v3
- Date: Tue, 16 May 2023 16:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 19:17:39.630876
- Title: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
- Title(参考訳): CREPE:Vision-Language Foundationはどのようにして構成できるのか?
- Authors: Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao,
Ranjay Krishna
- Abstract要約: 本稿では,認知科学文献が認識する構成性に関する2つの重要な側面,体系性と生産性を計測する新しい構成性評価ベンチマークCREPEを紹介する。
体系性については,新しい構成が検索集合を支配下に置くと,モデル性能は一貫して低下することがわかった。
生産性のために、モデルの検索成功は複雑さが増すにつれて崩壊し、しばしば高い複雑性のランダムな確率に近づく。
- 参考スコア(独自算出の注目度): 10.958279688917434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental characteristic common to both human vision and natural language
is their compositional nature. Yet, despite the performance gains contributed
by large vision and language pretraining, we find that: across 7 architectures
trained with 4 algorithms on massive datasets, they struggle at
compositionality. To arrive at this conclusion, we introduce a new
compositionality evaluation benchmark, CREPE, which measures two important
aspects of compositionality identified by cognitive science literature:
systematicity and productivity. To measure systematicity, CREPE consists of a
test dataset containing over $370K$ image-text pairs and three different
seen-unseen splits. The three splits are designed to test models trained on
three popular training datasets: CC-12M, YFCC-15M, and LAION-400M. We also
generate $325K$, $316K$, and $309K$ hard negative captions for a subset of the
pairs. To test productivity, CREPE contains $17K$ image-text pairs with nine
different complexities plus $183K$ hard negative captions with atomic, swapping
and negation foils. The datasets are generated by repurposing the Visual Genome
scene graphs and region descriptions and applying handcrafted templates and
GPT-3. For systematicity, we find that model performance decreases consistently
when novel compositions dominate the retrieval set, with Recall@1 dropping by
up to $12\%$. For productivity, models' retrieval success decays as complexity
increases, frequently nearing random chance at high complexity. These results
hold regardless of model and training dataset size.
- Abstract(参考訳): 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。
しかし、大きなビジョンと言語の事前トレーニングによるパフォーマンス向上にもかかわらず、大規模なデータセットで4つのアルゴリズムでトレーニングされた7つのアーキテクチャは、構成性に苦慮している。
そこで本研究では,認知科学文献で識別される構成性の2つの重要な側面,体系性と生産性を測定する新しい構成性評価ベンチマーク,crepeを提案する。
体系性を測定するために、crepeは370k$のイメージテキストペアと3つの異なる見当たらないスプリットを含むテストデータセットで構成されている。
3つの分割は、CC-12M、YFCC-15M、LAION-400Mという3つの一般的なトレーニングデータセットでトレーニングされたモデルをテストするように設計されている。
私たちはまた、ペアのサブセットに対して325k$、316k$、309k$の否定的なキャプションを生成します。
生産性をテストするために、CREPEには、9つの異なる複雑さを持つ17Kドルの画像テキストペアと、アトミック、スワッピング、否定翼を備えたハードネガティブキャプションが含まれている。
データセットは、Visual Genomeシーングラフとリージョン記述を再取得し、手作りテンプレートとGPT-3を適用して生成される。
体系的な場合、新しいコンポジションが検索セットを支配したとき、モデルのパフォーマンスは一貫して低下し、Recall@1は最大12\%$まで低下する。
生産性にとって、モデルの検索成功は複雑さが増すにつれて減少し、複雑度の高いランダムな機会に近づく。
これらの結果は、モデルとトレーニングデータセットのサイズにかかわらず保持される。
関連論文リスト
- ECRC: Emotion-Causality Recognition in Korean Conversation for GCN [0.0]
本稿では,新しいグラフ構造に基づく会話モデル(ECRC)の感情因果認識を提案する。
本研究では,単語レベルの埋め込みと文レベルの埋め込みの両方を活用することで,過去の埋め込みの限界を克服する。
このモデルは、双方向長短期メモリ(Bi-LSTM)とグラフニューラルネットワーク(GCN)モデルを韓国の会話分析のために一意に統合する。
論文 参考訳(メタデータ) (2024-03-16T02:07:31Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ViLLA: Fine-Grained Vision-Language Representation Learning from
Real-World Data [8.905439446173503]
視覚言語モデル(VLM)は一般的に、Webから取得した画像キャプチャペアからなるデータセットに基づいて訓練される。
医療データなどの実世界のマルチモーダルデータセットは、はるかに複雑です。
ViLLAは、複雑なデータセットからきめ細かい領域属性関係をキャプチャするために訓練されている。
論文 参考訳(メタデータ) (2023-08-22T05:03:09Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。
Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。
我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文 参考訳(メタデータ) (2023-05-22T17:59:43Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - When and why vision-language models behave like bags-of-words, and what
to do about it? [39.90099818890488]
我々は、VLMが様々な種類の関係、属性、順序を理解する能力を評価するために、属性、関係、順序のベンチマークを作成します。
AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。
我々は、最先端のVLMが、リレーショナル理解が不十分で、オブジェクトを属性にリンクする場合に、ブルンダーが可能であることを示し、注文感度の深刻な欠如を示す。
論文 参考訳(メタデータ) (2022-10-04T22:13:25Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。