論文の概要: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
- arxiv url: http://arxiv.org/abs/2212.07796v1
- Date: Tue, 13 Dec 2022 19:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:58:28.351335
- Title: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
- Title(参考訳): CREPE:Vision-Language Foundationはどのようにして構成できるのか?
- Authors: Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao,
Ranjay Krishna
- Abstract要約: 本稿では,認知科学文献が認識する構成性の2つの重要な側面,体系性と生産性を計測する新しい構成性評価ベンチマーク CREPEを紹介する。
Recall@1は8%まで低下し,新しい構成が検索セットを支配下に置くと,モデル性能は一貫して低下することがわかった。
生産性のために、モデルの検索成功は複雑さが増すにつれて崩壊し、しばしば高い複雑性のランダムな確率に近づく。
- 参考スコア(独自算出の注目度): 10.958279688917434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental characteristic common to both human vision and natural language
is their compositional nature. Yet, despite the performance gains contributed
by large vision and language pretraining, we find that - across 6 architectures
trained with 4 algorithms on massive datasets - they exhibit little
compositionality. To arrive at this conclusion, we introduce a new
compositionality evaluation benchmark CREPE which measures two important
aspects of compositionality identified by cognitive science literature:
systematicity and productivity. To measure systematicity, CREPE consists of
three test datasets. The three test sets are designed to test models trained on
three of the popular training datasets: CC-12M, YFCC-15M, and LAION-400M. They
contain 385K, 385K, and 373K image-text pairs and 237K, 210K, and 178K hard
negative captions. To test productivity, CREPE contains 17K image-text pairs
with nine different complexities plus 246K hard negative captions with atomic,
swapping, and negation foils. The datasets are generated by repurposing the
Visual Genome scene graphs and region descriptions and applying handcrafted
templates and GPT-3. For systematicity, we find that model performance
decreases consistently when novel compositions dominate the retrieval set, with
Recall@1 dropping by up to 8%. For productivity, models' retrieval success
decays as complexity increases, frequently nearing random chance at high
complexity. These results hold regardless of model and training dataset size.
- Abstract(参考訳): 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。
しかし、大きなビジョンと言語の事前トレーニングによるパフォーマンス向上にもかかわらず、大規模なデータセットで4つのアルゴリズムでトレーニングされた6つのアーキテクチャで、構成性がほとんどないことがわかった。
この結論に達するために、認知科学文献で識別される構成性の2つの重要な側面、体系性と生産性を測定する新しい構成性評価ベンチマーク CREPEを導入する。
系統性を測定するために、CREPEは3つのテストデータセットで構成される。
3つのテストセットは、CC-12M、YFCC-15M、LAION-400Mの3つのトレーニングデータセットでトレーニングされたモデルをテストするように設計されている。
385K、385K、373Kイメージテキスト対、237K、210K、178Kハードネガティブキャプションを含む。
生産性をテストするために、CREPEは9つの異なる複雑さを持つ17Kイメージテキスト対と、原子、スワッピング、否定翼を持つ246Kハードネガティブキャプションを含んでいる。
データセットは、Visual Genomeシーングラフとリージョン記述を再取得し、手作りテンプレートとGPT-3を適用して生成される。
Recall@1は8%まで低下し,新しい構成が検索セットを支配下に置くと,モデル性能は一貫して低下することがわかった。
生産性にとって、モデルの検索成功は複雑さが増すにつれて減少し、複雑度の高いランダムな機会に近づく。
これらの結果は、モデルとトレーニングデータセットのサイズにかかわらず保持される。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Can Models Learn Skill Composition from Examples? [50.5142714905768]
サンプルから構成一般化を学習する小型モデルの能力を評価する。
k=2$と3$のスキルの組み合わせによるトレーニングは、テキスト作成能力の顕著な改善をもたらすことを示す。
また,本研究では,スキルリッチ(潜在的に合成的な)テキストをトレーニングに取り入れることで,モデルの構成能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-09-29T22:14:02Z) - An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set [0.0]
デフォルト設定では、Human-Object Interaction(HOI)のパフォーマンスはほぼ飽和している。
本研究は、真理とランダムな任意の組み合わせの2つの実験的な設定を用いる。
マルチモーダル視覚基盤モデルのオープン語彙能力は,まだ完全には実現されていない。
論文 参考訳(メタデータ) (2024-08-11T13:40:02Z) - $\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs [62.565573316667276]
サンプルが他者とどのように関連しているかを符号化する目的を開発する。
クラスやテキストのキャプション記述における類似性に基づいて視覚モデルを訓練する。
我々の目標は、特に低いデータ体制でうまく機能しているようで、CLIPが16.8%、ImageNet Realが18.1%だった。
論文 参考訳(メタデータ) (2024-07-25T15:38:16Z) - CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。
特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文 参考訳(メタデータ) (2024-02-20T18:59:55Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。
Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。
我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文 参考訳(メタデータ) (2023-05-22T17:59:43Z) - When and why vision-language models behave like bags-of-words, and what
to do about it? [39.90099818890488]
我々は、VLMが様々な種類の関係、属性、順序を理解する能力を評価するために、属性、関係、順序のベンチマークを作成します。
AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。
我々は、最先端のVLMが、リレーショナル理解が不十分で、オブジェクトを属性にリンクする場合に、ブルンダーが可能であることを示し、注文感度の深刻な欠如を示す。
論文 参考訳(メタデータ) (2022-10-04T22:13:25Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。