論文の概要: CounterCurate: Enhancing Physical and Semantic Visio-Linguistic
Compositional Reasoning via Counterfactual Examples
- arxiv url: http://arxiv.org/abs/2402.13254v2
- Date: Tue, 12 Mar 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:33:07.996568
- Title: CounterCurate: Enhancing Physical and Semantic Visio-Linguistic
Compositional Reasoning via Counterfactual Examples
- Title(参考訳): countercurate: 実例による物理的および意味的ビシオ言語的構成推論の強化
- Authors: Jianrui Zhang, Mu Cai, Tengyang Xie, Yong Jae Lee
- Abstract要約: 視覚言語合成推論能力を包括的に改善するフレームワークであるCounterCurateを提案する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
我々は、高パフォーマンステキスト生成と画像生成モデル、特にGPT-4VとDALLE-3の能力を利用して、難解なセマンティックカウンターファクトをキュレートする。
- 参考スコア(独自算出の注目度): 37.92461408215183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose CounterCurate, a framework to comprehensively improve the
visio-linguistic compositional reasoning capability for both contrastive and
generative multimodal models. In particular, we identify two critical
under-explored problems: the neglect of the physically grounded reasoning
(counting and position understanding) and the potential of using highly capable
text and image generation models for semantic counterfactual fine-tuning. Our
work pioneers an approach that addresses these gaps. We first spotlight the
near-chance performance of multimodal models like CLIP and LLaVA in physically
grounded compositional reasoning. We then apply simple data augmentation using
grounded image generation model GLIGEN to generate fine-tuning data, resulting
in significant performance improvements: +33% and +37% for CLIP and LLaVA,
respectively, on our newly curated Flickr30k-Positions benchmark. Moreover, we
exploit the capabilities of high-performing text generation and image
generation models, specifically GPT-4V and DALLE-3, to curate challenging
semantic counterfactuals, thereby further enhancing compositional reasoning
capabilities on benchmarks such as SugarCrepe, where CounterCurate outperforms
GPT-4V.
- Abstract(参考訳): 比較的および生成的マルチモーダルモデルの両方に対して、視覚言語合成推論能力を包括的に改善するフレームワークであるCounterCurateを提案する。
特に, 物理的根拠に基づく推論(計数と位置理解)の無視と, セマンティック・カウンティファクチュアル・ファインタニングに高機能なテキストと画像生成モデルを用いる可能性という2つの重要な未探索問題を特定する。
私たちの仕事はこれらのギャップに対処するアプローチの先駆者です。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて、微調整データを生成する単純なデータ拡張を行い、新たにキュレーションしたFlickr30k-Positionsベンチマークにおいて、CLIPとLLaVAの+33%と+37%の大幅なパフォーマンス改善を実現した。
さらに,高パフォーマンステキスト生成と画像生成モデル,特にgpt-4vとdalle-3の機能を活用して,難解な意味的反事実のキュレーションを行い,sugarcrepeなどのベンチマークにおける構成的推論能力をさらに高めている。
関連論文リスト
- Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Augmenting CLIP with Improved Visio-Linguistic Reasoning [51.135606355630046]
本稿では,CLIPの視覚言語推論能力を向上させるために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
提案手法は,異なるCLIPモデルの絶対的視覚言語性能を最大7%向上させる。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis [74.71986888051381]
本稿では,高品質,効率的,高速,かつ制御可能なテキスト・ツー・イメージ合成を実現するために,ジェネレーティブ・アドリラルCLIPを提案する。
本モデルは合成速度を120倍に向上し, GANからスムーズな潜伏空間を継承する。
論文 参考訳(メタデータ) (2023-01-30T14:58:23Z) - InfoMax-GAN: Improved Adversarial Image Generation via Information
Maximization and Contrastive Learning [39.316605441868944]
GAN(Generative Adversarial Networks)は、多くのジェネレーティブモデリングアプリケーションの基本である。
本稿では,GANにおける2つの基本的な問題を同時に緩和する基本的枠組みを提案する。
提案手法は, 5つのデータセットにわたる画像合成において, GANトレーニングを著しく安定化し, GAN性能を向上させる。
論文 参考訳(メタデータ) (2020-07-09T06:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。