Fugu-MT 論文翻訳(概要): CREPE: Can Vision-Language Foundation Models Reason Compositionally?

論文の概要: CREPE: Can Vision-Language Foundation Models Reason Compositionally?

arxiv url: http://arxiv.org/abs/2212.07796v1
Date: Tue, 13 Dec 2022 19:17:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 15:58:28.351335
Title: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
Title（参考訳）: CREPE:Vision-Language Foundationはどのようにして構成できるのか?
Authors: Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna
Abstract要約: 本稿では,認知科学文献が認識する構成性の2つの重要な側面,体系性と生産性を計測する新しい構成性評価ベンチマーク CREPEを紹介する。 Recall@1は8%まで低下し,新しい構成が検索セットを支配下に置くと,モデル性能は一貫して低下することがわかった。生産性のために、モデルの検索成功は複雑さが増すにつれて崩壊し、しばしば高い複雑性のランダムな確率に近づく。
参考スコア（独自算出の注目度）: 10.958279688917434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A fundamental characteristic common to both human vision and natural language is their compositional nature. Yet, despite the performance gains contributed by large vision and language pretraining, we find that - across 6 architectures trained with 4 algorithms on massive datasets - they exhibit little compositionality. To arrive at this conclusion, we introduce a new compositionality evaluation benchmark CREPE which measures two important aspects of compositionality identified by cognitive science literature: systematicity and productivity. To measure systematicity, CREPE consists of three test datasets. The three test sets are designed to test models trained on three of the popular training datasets: CC-12M, YFCC-15M, and LAION-400M. They contain 385K, 385K, and 373K image-text pairs and 237K, 210K, and 178K hard negative captions. To test productivity, CREPE contains 17K image-text pairs with nine different complexities plus 246K hard negative captions with atomic, swapping, and negation foils. The datasets are generated by repurposing the Visual Genome scene graphs and region descriptions and applying handcrafted templates and GPT-3. For systematicity, we find that model performance decreases consistently when novel compositions dominate the retrieval set, with Recall@1 dropping by up to 8%. For productivity, models' retrieval success decays as complexity increases, frequently nearing random chance at high complexity. These results hold regardless of model and training dataset size.
Abstract（参考訳）: 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。しかし、大きなビジョンと言語の事前トレーニングによるパフォーマンス向上にもかかわらず、大規模なデータセットで4つのアルゴリズムでトレーニングされた6つのアーキテクチャで、構成性がほとんどないことがわかった。この結論に達するために、認知科学文献で識別される構成性の2つの重要な側面、体系性と生産性を測定する新しい構成性評価ベンチマーク CREPEを導入する。系統性を測定するために、CREPEは3つのテストデータセットで構成される。 3つのテストセットは、CC-12M、YFCC-15M、LAION-400Mの3つのトレーニングデータセットでトレーニングされたモデルをテストするように設計されている。 385K、385K、373Kイメージテキスト対、237K、210K、178Kハードネガティブキャプションを含む。生産性をテストするために、CREPEは9つの異なる複雑さを持つ17Kイメージテキスト対と、原子、スワッピング、否定翼を持つ246Kハードネガティブキャプションを含んでいる。データセットは、Visual Genomeシーングラフとリージョン記述を再取得し、手作りテンプレートとGPT-3を適用して生成される。 Recall@1は8%まで低下し,新しい構成が検索セットを支配下に置くと,モデル性能は一貫して低下することがわかった。生産性にとって、モデルの検索成功は複雑さが増すにつれて減少し、複雑度の高いランダムな機会に近づく。これらの結果は、モデルとトレーニングデータセットのサイズにかかわらず保持される。

関連論文リスト

Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning [105.25503508433758]
我々は182,384サンプルの多種多様な大規模データセットであるtextbfZebra-CoT$を紹介した。スケッチや視覚的推論が特に自然なタスクの4つのカテゴリに注目します。微調整されたベーゲル7Bは高品質な視覚的推論連鎖を生成するモデルを生成する。
論文参考訳（メタデータ） (2025-07-22T16:35:36Z)
Adding simple structure at inference improves Vision-Language Compositionality [15.785274903236663]
本稿では,イメージとキャプションが与えられた場合,イメージを小さな作物に分割する,推論時に単純な構造を加えることを提案する。提案手法は,評価された視覚言語モデルの性能をトレーニングなしで継続的に改善する。
論文参考訳（メタデータ） (2025-06-11T13:06:25Z)
CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文参考訳（メタデータ） (2025-05-16T12:23:58Z)
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data [7.879286384561264]
ビジョンランゲージモデル(Vision-Language Model)は、適切な構成的理解を備えたビジョンランゲージモデルである。合成学習のための訓練画像の合成には 3つの課題があります。本稿では,画像特徴注入を高速テキスト・画像生成モデルに統合したロバスト構成学習を支援するための合成摂動法を提案する。
論文参考訳（メタデータ） (2025-03-03T04:30:39Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Can Models Learn Skill Composition from Examples? [50.5142714905768]
サンプルから構成一般化を学習する小型モデルの能力を評価する。 k=2$と3$のスキルの組み合わせによるトレーニングは、テキスト作成能力の顕著な改善をもたらすことを示す。また,本研究では,スキルリッチ(潜在的に合成的な)テキストをトレーニングに取り入れることで,モデルの構成能力を大幅に向上させることが示唆された。
論文参考訳（メタデータ） (2024-09-29T22:14:02Z)
An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set [0.0]
デフォルト設定では、Human-Object Interaction(HOI)のパフォーマンスはほぼ飽和している。本研究は、真理とランダムな任意の組み合わせの2つの実験的な設定を用いる。マルチモーダル視覚基盤モデルのオープン語彙能力は,まだ完全には実現されていない。
論文参考訳（メタデータ） (2024-08-11T13:40:02Z)
$\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs [62.565573316667276]
サンプルが他者とどのように関連しているかを符号化する目的を開発する。クラスやテキストのキャプション記述における類似性に基づいて視覚モデルを訓練する。我々の目標は、特に低いデータ体制でうまく機能しているようで、CLIPが16.8%、ImageNet Realが18.1%だった。
論文参考訳（メタデータ） (2024-07-25T15:38:16Z)
CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文参考訳（メタデータ） (2024-02-20T18:59:55Z)
T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。 8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文参考訳（メタデータ） (2023-07-12T17:59:42Z)
Towards Unseen Triples: Effective Text-Image-joint Learning for Scene Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文参考訳（メタデータ） (2023-06-23T10:17:56Z)
Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。 Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文参考訳（メタデータ） (2023-05-22T17:59:43Z)
When and why vision-language models behave like bags-of-words, and what to do about it? [39.90099818890488]
我々は、VLMが様々な種類の関係、属性、順序を理解する能力を評価するために、属性、関係、順序のベンチマークを作成します。 AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。我々は、最先端のVLMが、リレーショナル理解が不十分で、オブジェクトを属性にリンクする場合に、ブルンダーが可能であることを示し、注文感度の深刻な欠如を示す。
論文参考訳（メタデータ） (2022-10-04T22:13:25Z)
Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。本稿では,新たな意味論的構成学習戦略を提案する。最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文参考訳（メタデータ） (2021-08-19T10:13:55Z)
Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。 GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-05-28T17:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。