論文の概要: CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples
- arxiv url: http://arxiv.org/abs/2402.13254v3
- Date: Mon, 10 Jun 2024 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:23:27.620863
- Title: CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples
- Title(参考訳): CounterCurate: 物理・セマンティックなヴィシオ言語構成推論の強化
- Authors: Jianrui Zhang, Mu Cai, Tengyang Xie, Yong Jae Lee,
- Abstract要約: 視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。
特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
- 参考スコア(独自算出の注目度): 34.71588837946776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose CounterCurate, a framework to comprehensively improve the visio-linguistic compositional reasoning capability for both contrastive and generative multimodal models. In particular, we identify two critical under-explored problems: the neglect of the physically grounded reasoning (counting and position understanding) and the potential of using highly capable text and image generation models for semantic counterfactual fine-tuning. Our work pioneers an approach that addresses these gaps. We first spotlight the near-chance performance of multimodal models like CLIP and LLaVA in physically grounded compositional reasoning. We then apply simple data augmentation using grounded image generation model GLIGEN to generate fine-tuning data, resulting in significant performance improvements: +33% and +37% for CLIP and LLaVA, respectively, on our newly curated Flickr30k-Positions benchmark. Moreover, we exploit the capabilities of high-performing text generation and image generation models, specifically GPT-4V and DALLE-3, to curate challenging semantic counterfactuals, thereby further enhancing compositional reasoning capabilities on benchmarks such as SugarCrepe, where CounterCurate outperforms GPT-4V. To facilitate future research, we release our code, dataset, benchmark, and checkpoints at https://countercurate.github.io.
- Abstract(参考訳): 比較的および生成的マルチモーダルモデルの両方に対して、視覚言語合成推論能力を包括的に改善するフレームワークであるCounterCurateを提案する。
特に, 物理的根拠に基づく推論(計数と位置理解)の無視と, セマンティック・カウンティファクチュアル・ファインタニングに高機能なテキストと画像生成モデルを用いる可能性という2つの重要な未探索問題を特定する。
私たちの仕事は、これらのギャップに対処するアプローチの先駆者です。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて、微調整データを生成する単純なデータ拡張を行い、新たにキュレーションしたFlickr30k-Positionsベンチマークにおいて、CLIPとLLaVAの+33%と+37%の大幅なパフォーマンス改善を実現した。
さらに,高パフォーマンステキスト生成および画像生成モデル(特にGPT-4VとDALLE-3)の能力を利用して,難解なセマンティックカウンターファクトをキュレートし,SugarCrepeなどのベンチマークにおけるコンポジション推論能力をさらに向上させる。
将来の研究を促進するため、私たちはhttps://countercurate.github.io.comでコード、データセット、ベンチマーク、チェックポイントをリリースしました。
関連論文リスト
- Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis [74.71986888051381]
本稿では,高品質,効率的,高速,かつ制御可能なテキスト・ツー・イメージ合成を実現するために,ジェネレーティブ・アドリラルCLIPを提案する。
本モデルは合成速度を120倍に向上し, GANからスムーズな潜伏空間を継承する。
論文 参考訳(メタデータ) (2023-01-30T14:58:23Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - InfoMax-GAN: Improved Adversarial Image Generation via Information
Maximization and Contrastive Learning [39.316605441868944]
GAN(Generative Adversarial Networks)は、多くのジェネレーティブモデリングアプリケーションの基本である。
本稿では,GANにおける2つの基本的な問題を同時に緩和する基本的枠組みを提案する。
提案手法は, 5つのデータセットにわたる画像合成において, GANトレーニングを著しく安定化し, GAN性能を向上させる。
論文 参考訳(メタデータ) (2020-07-09T06:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。