Fugu-MT 論文翻訳(概要): CREPE: Can Vision-Language Foundation Models Reason Compositionally?

論文の概要: CREPE: Can Vision-Language Foundation Models Reason Compositionally?

arxiv url: http://arxiv.org/abs/2212.07796v3
Date: Tue, 16 May 2023 16:27:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-17 19:17:39.630876
Title: CREPE: Can Vision-Language Foundation Models Reason Compositionally?
Title（参考訳）: CREPE:Vision-Language Foundationはどのようにして構成できるのか?
Authors: Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna
Abstract要約: 本稿では,認知科学文献が認識する構成性に関する2つの重要な側面,体系性と生産性を計測する新しい構成性評価ベンチマークCREPEを紹介する。体系性については,新しい構成が検索集合を支配下に置くと,モデル性能は一貫して低下することがわかった。生産性のために、モデルの検索成功は複雑さが増すにつれて崩壊し、しばしば高い複雑性のランダムな確率に近づく。
参考スコア（独自算出の注目度）: 10.958279688917434
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A fundamental characteristic common to both human vision and natural language is their compositional nature. Yet, despite the performance gains contributed by large vision and language pretraining, we find that: across 7 architectures trained with 4 algorithms on massive datasets, they struggle at compositionality. To arrive at this conclusion, we introduce a new compositionality evaluation benchmark, CREPE, which measures two important aspects of compositionality identified by cognitive science literature: systematicity and productivity. To measure systematicity, CREPE consists of a test dataset containing over $370K$ image-text pairs and three different seen-unseen splits. The three splits are designed to test models trained on three popular training datasets: CC-12M, YFCC-15M, and LAION-400M. We also generate $325K$, $316K$, and $309K$ hard negative captions for a subset of the pairs. To test productivity, CREPE contains $17K$ image-text pairs with nine different complexities plus $183K$ hard negative captions with atomic, swapping and negation foils. The datasets are generated by repurposing the Visual Genome scene graphs and region descriptions and applying handcrafted templates and GPT-3. For systematicity, we find that model performance decreases consistently when novel compositions dominate the retrieval set, with Recall@1 dropping by up to $12\%$. For productivity, models' retrieval success decays as complexity increases, frequently nearing random chance at high complexity. These results hold regardless of model and training dataset size.
Abstract（参考訳）: 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。しかし、大きなビジョンと言語の事前トレーニングによるパフォーマンス向上にもかかわらず、大規模なデータセットで4つのアルゴリズムでトレーニングされた7つのアーキテクチャは、構成性に苦慮している。そこで本研究では,認知科学文献で識別される構成性の2つの重要な側面,体系性と生産性を測定する新しい構成性評価ベンチマーク,crepeを提案する。体系性を測定するために、crepeは370k$のイメージテキストペアと3つの異なる見当たらないスプリットを含むテストデータセットで構成されている。 3つの分割は、CC-12M、YFCC-15M、LAION-400Mという3つの一般的なトレーニングデータセットでトレーニングされたモデルをテストするように設計されている。私たちはまた、ペアのサブセットに対して325k$、316k$、309k$の否定的なキャプションを生成します。生産性をテストするために、CREPEには、9つの異なる複雑さを持つ17Kドルの画像テキストペアと、アトミック、スワッピング、否定翼を備えたハードネガティブキャプションが含まれている。データセットは、Visual Genomeシーングラフとリージョン記述を再取得し、手作りテンプレートとGPT-3を適用して生成される。体系的な場合、新しいコンポジションが検索セットを支配したとき、モデルのパフォーマンスは一貫して低下し、Recall@1は最大12\%$まで低下する。生産性にとって、モデルの検索成功は複雑さが増すにつれて減少し、複雑度の高いランダムな機会に近づく。これらの結果は、モデルとトレーニングデータセットのサイズにかかわらず保持される。

関連論文リスト

Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning [105.25503508433758]
我々は182,384サンプルの多種多様な大規模データセットであるtextbfZebra-CoT$を紹介した。スケッチや視覚的推論が特に自然なタスクの4つのカテゴリに注目します。微調整されたベーゲル7Bは高品質な視覚的推論連鎖を生成するモデルを生成する。
論文参考訳（メタデータ） (2025-07-22T16:35:36Z)
Adding simple structure at inference improves Vision-Language Compositionality [15.785274903236663]
本稿では,イメージとキャプションが与えられた場合,イメージを小さな作物に分割する,推論時に単純な構造を加えることを提案する。提案手法は,評価された視覚言語モデルの性能をトレーニングなしで継続的に改善する。
論文参考訳（メタデータ） (2025-06-11T13:06:25Z)
CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文参考訳（メタデータ） (2025-05-16T12:23:58Z)
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data [7.879286384561264]
ビジョンランゲージモデル(Vision-Language Model)は、適切な構成的理解を備えたビジョンランゲージモデルである。合成学習のための訓練画像の合成には 3つの課題があります。本稿では,画像特徴注入を高速テキスト・画像生成モデルに統合したロバスト構成学習を支援するための合成摂動法を提案する。
論文参考訳（メタデータ） (2025-03-03T04:30:39Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Can Models Learn Skill Composition from Examples? [50.5142714905768]
サンプルから構成一般化を学習する小型モデルの能力を評価する。 k=2$と3$のスキルの組み合わせによるトレーニングは、テキスト作成能力の顕著な改善をもたらすことを示す。また,本研究では,スキルリッチ(潜在的に合成的な)テキストをトレーニングに取り入れることで,モデルの構成能力を大幅に向上させることが示唆された。
論文参考訳（メタデータ） (2024-09-29T22:14:02Z)
An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set [0.0]
デフォルト設定では、Human-Object Interaction(HOI)のパフォーマンスはほぼ飽和している。本研究は、真理とランダムな任意の組み合わせの2つの実験的な設定を用いる。マルチモーダル視覚基盤モデルのオープン語彙能力は,まだ完全には実現されていない。
論文参考訳（メタデータ） (2024-08-11T13:40:02Z)
$\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs [62.565573316667276]
サンプルが他者とどのように関連しているかを符号化する目的を開発する。クラスやテキストのキャプション記述における類似性に基づいて視覚モデルを訓練する。我々の目標は、特に低いデータ体制でうまく機能しているようで、CLIPが16.8%、ImageNet Realが18.1%だった。
論文参考訳（メタデータ） (2024-07-25T15:38:16Z)
CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文参考訳（メタデータ） (2024-02-20T18:59:55Z)
T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。 8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文参考訳（メタデータ） (2023-07-12T17:59:42Z)
Towards Unseen Triples: Effective Text-Image-joint Learning for Scene Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文参考訳（メタデータ） (2023-06-23T10:17:56Z)
Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。 Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文参考訳（メタデータ） (2023-05-22T17:59:43Z)
When and why vision-language models behave like bags-of-words, and what to do about it? [39.90099818890488]
我々は、VLMが様々な種類の関係、属性、順序を理解する能力を評価するために、属性、関係、順序のベンチマークを作成します。 AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。我々は、最先端のVLMが、リレーショナル理解が不十分で、オブジェクトを属性にリンクする場合に、ブルンダーが可能であることを示し、注文感度の深刻な欠如を示す。
論文参考訳（メタデータ） (2022-10-04T22:13:25Z)
Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。本稿では,新たな意味論的構成学習戦略を提案する。最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文参考訳（メタデータ） (2021-08-19T10:13:55Z)
Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。 GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-05-28T17:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。