論文の概要: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
- arxiv url: http://arxiv.org/abs/2212.07796v3
- Date: Tue, 16 May 2023 16:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 19:17:39.630876
- Title: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
- Title(参考訳): CREPE:Vision-Language Foundationはどのようにして構成できるのか?
- Authors: Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao,
Ranjay Krishna
- Abstract要約: 本稿では,認知科学文献が認識する構成性に関する2つの重要な側面,体系性と生産性を計測する新しい構成性評価ベンチマークCREPEを紹介する。
体系性については,新しい構成が検索集合を支配下に置くと,モデル性能は一貫して低下することがわかった。
生産性のために、モデルの検索成功は複雑さが増すにつれて崩壊し、しばしば高い複雑性のランダムな確率に近づく。
- 参考スコア(独自算出の注目度): 10.958279688917434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental characteristic common to both human vision and natural language
is their compositional nature. Yet, despite the performance gains contributed
by large vision and language pretraining, we find that: across 7 architectures
trained with 4 algorithms on massive datasets, they struggle at
compositionality. To arrive at this conclusion, we introduce a new
compositionality evaluation benchmark, CREPE, which measures two important
aspects of compositionality identified by cognitive science literature:
systematicity and productivity. To measure systematicity, CREPE consists of a
test dataset containing over $370K$ image-text pairs and three different
seen-unseen splits. The three splits are designed to test models trained on
three popular training datasets: CC-12M, YFCC-15M, and LAION-400M. We also
generate $325K$, $316K$, and $309K$ hard negative captions for a subset of the
pairs. To test productivity, CREPE contains $17K$ image-text pairs with nine
different complexities plus $183K$ hard negative captions with atomic, swapping
and negation foils. The datasets are generated by repurposing the Visual Genome
scene graphs and region descriptions and applying handcrafted templates and
GPT-3. For systematicity, we find that model performance decreases consistently
when novel compositions dominate the retrieval set, with Recall@1 dropping by
up to $12\%$. For productivity, models' retrieval success decays as complexity
increases, frequently nearing random chance at high complexity. These results
hold regardless of model and training dataset size.
- Abstract(参考訳): 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。
しかし、大きなビジョンと言語の事前トレーニングによるパフォーマンス向上にもかかわらず、大規模なデータセットで4つのアルゴリズムでトレーニングされた7つのアーキテクチャは、構成性に苦慮している。
そこで本研究では,認知科学文献で識別される構成性の2つの重要な側面,体系性と生産性を測定する新しい構成性評価ベンチマーク,crepeを提案する。
体系性を測定するために、crepeは370k$のイメージテキストペアと3つの異なる見当たらないスプリットを含むテストデータセットで構成されている。
3つの分割は、CC-12M、YFCC-15M、LAION-400Mという3つの一般的なトレーニングデータセットでトレーニングされたモデルをテストするように設計されている。
私たちはまた、ペアのサブセットに対して325k$、316k$、309k$の否定的なキャプションを生成します。
生産性をテストするために、CREPEには、9つの異なる複雑さを持つ17Kドルの画像テキストペアと、アトミック、スワッピング、否定翼を備えたハードネガティブキャプションが含まれている。
データセットは、Visual Genomeシーングラフとリージョン記述を再取得し、手作りテンプレートとGPT-3を適用して生成される。
体系的な場合、新しいコンポジションが検索セットを支配したとき、モデルのパフォーマンスは一貫して低下し、Recall@1は最大12\%$まで低下する。
生産性にとって、モデルの検索成功は複雑さが増すにつれて減少し、複雑度の高いランダムな機会に近づく。
これらの結果は、モデルとトレーニングデータセットのサイズにかかわらず保持される。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Can Models Learn Skill Composition from Examples? [50.5142714905768]
サンプルから構成一般化を学習する小型モデルの能力を評価する。
k=2$と3$のスキルの組み合わせによるトレーニングは、テキスト作成能力の顕著な改善をもたらすことを示す。
また,本研究では,スキルリッチ(潜在的に合成的な)テキストをトレーニングに取り入れることで,モデルの構成能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-09-29T22:14:02Z) - An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set [0.0]
デフォルト設定では、Human-Object Interaction(HOI)のパフォーマンスはほぼ飽和している。
本研究は、真理とランダムな任意の組み合わせの2つの実験的な設定を用いる。
マルチモーダル視覚基盤モデルのオープン語彙能力は,まだ完全には実現されていない。
論文 参考訳(メタデータ) (2024-08-11T13:40:02Z) - $\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs [62.565573316667276]
サンプルが他者とどのように関連しているかを符号化する目的を開発する。
クラスやテキストのキャプション記述における類似性に基づいて視覚モデルを訓練する。
我々の目標は、特に低いデータ体制でうまく機能しているようで、CLIPが16.8%、ImageNet Realが18.1%だった。
論文 参考訳(メタデータ) (2024-07-25T15:38:16Z) - CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。
特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文 参考訳(メタデータ) (2024-02-20T18:59:55Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。
Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。
我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文 参考訳(メタデータ) (2023-05-22T17:59:43Z) - When and why vision-language models behave like bags-of-words, and what
to do about it? [39.90099818890488]
我々は、VLMが様々な種類の関係、属性、順序を理解する能力を評価するために、属性、関係、順序のベンチマークを作成します。
AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。
我々は、最先端のVLMが、リレーショナル理解が不十分で、オブジェクトを属性にリンクする場合に、ブルンダーが可能であることを示し、注文感度の深刻な欠如を示す。
論文 参考訳(メタデータ) (2022-10-04T22:13:25Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。