論文の概要: Impact of Pretraining Word Co-occurrence on Compositional Generalization in Multimodal Models
- arxiv url: http://arxiv.org/abs/2507.08000v1
- Date: Thu, 10 Jul 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.545955
- Title: Impact of Pretraining Word Co-occurrence on Compositional Generalization in Multimodal Models
- Title(参考訳): 多モーダルモデルにおける事前学習単語共起が構成一般化に及ぼす影響
- Authors: Helen Qu, Sang Michael Xie,
- Abstract要約: 事前学習データセットにおける単語共起統計がCLIP/LMMに与える影響について検討する。
LAION-400Mで訓練したCLIPモデルにおいて,CLIP事前学習データにおけるPMIとゼロショット精度との間に強い相関関係を示す。
そこで本研究では,スケーリングを伴わないマルチモーダルモデルにおいて,構成一般化を改善するアルゴリズムとアーキテクチャの必要性を強調した。
- 参考スコア(独自算出の注目度): 15.387990102999773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP and large multimodal models (LMMs) have better accuracy on examples involving concepts that are highly represented in the training data. However, the role of concept combinations in the training data on compositional generalization is largely unclear -- for instance, how does accuracy vary when a common object appears in an uncommon pairing with another object? In this paper, we investigate how word co-occurrence statistics in the pretraining dataset (a proxy for co-occurrence of visual concepts) impacts CLIP/LMM performance. To disentangle the effects of word co-occurrence frequencies from single-word frequencies, we measure co-occurrence with pointwise mutual information (PMI), which normalizes the joint probability of two words co-occurring by the probability of co-occurring independently. Using synthetically generated images with a variety of concept pairs, we show a strong correlation between PMI in the CLIP pretraining data and zero-shot accuracy in CLIP models trained on LAION-400M (r=0.97 and 14% accuracy gap between images in the top and bottom 5% of PMI values), demonstrating that even accuracy on common concepts is affected by the combination of concepts in the image. Leveraging this finding, we reproduce this effect in natural images by editing them to contain pairs with varying PMI, resulting in a correlation of r=0.75. Finally, we demonstrate that this behavior in CLIP transfers to LMMs built on top of CLIP (r=0.70 for TextVQA, r=0.62 for VQAv2). Our findings highlight the need for algorithms and architectures that improve compositional generalization in multimodal models without scaling the training data combinatorially. Our code is available at https://github.com/helenqu/multimodal-pretraining-pmi.
- Abstract(参考訳): CLIPと大規模マルチモーダルモデル(LMM)は、トレーニングデータに高度に表現された概念を含む例において、より正確である。
しかし、構成一般化におけるトレーニングデータにおける概念結合の役割は、ほとんど不明である。例えば、共通のオブジェクトが共通のオブジェクトと他のオブジェクトとのペアリングで現れると、どのように精度が変化するのか?
本稿では,事前学習データセット(視覚概念の共起プロキシ)における単語共起統計が,CLIP/LMMの性能に与える影響について検討する。
単語共起周波数の影響を単一単語周波数から切り離すために,2単語共起確率を独立に正規化するポイントワイド相互情報(PMI)を用いて単語共起頻度を測定する。
様々な概念対を持つ合成画像を用いて、LAION-400MでトレーニングしたCLIPモデル(r=0.97とPMI値の上下5%の精度差)において、CLIP事前学習データにおけるPMIとゼロショット精度との間に強い相関関係を示し、共通概念上の精度が画像内の概念の組み合わせの影響を受けていることを示した。
この知見を生かして、自然画像でこの効果を再現し、異なるPMIのペアを含むように編集し、r=0.75の相関関係を得る。
最後に、CLIP上で構築されたLMM(TextVQAではr=0.70、VQAv2ではr=0.62)へのCLIP転送におけるこの挙動を示す。
本研究は,学習データを組み合わせてスケールアップすることなく,多モードモデルにおける構成一般化を改善するアルゴリズムとアーキテクチャの必要性を強調した。
私たちのコードはhttps://github.com/helenqu/multimodal-pretraining-pmi.comで公開されています。
関連論文リスト
- Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly
Supervised Text-based Person Re-Identification [10.64115914599574]
弱教師付きテキストベース人物識別(TPRe-ID)は、テキスト記述を用いて対象人物の画像の検索を試みる。
主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとモーダル間のセマンティックギャップを含んでいる。
実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
論文 参考訳(メタデータ) (2024-01-18T14:27:01Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Impact of PolSAR pre-processing and balancing methods on complex-valued
neural networks segmentation tasks [9.6556424340252]
複素値ニューラルネットワーク(CVNN)を用いたポラリメトリック合成開口レーダ(PolSAR)のセマンティックセグメンテーションについて検討する。
6つのモデルアーキテクチャ,3つの複素値,それぞれの実等価モデルについて,両手法を徹底的に比較する。
本稿では、このギャップを減らし、全ての入力表現、モデル、データセット前処理の結果を実行するための2つの方法を提案する。
論文 参考訳(メタデータ) (2022-10-28T12:49:43Z) - MoSE: Modality Split and Ensemble for Multimodal Knowledge Graph
Completion [11.878018501526945]
マルチモーダル知識グラフ補完(MKGC)は、MKGの欠落したエンティティを予測することを目的としている。
MKGCのためのモダリティ分割表現学習およびアンサンブル推論フレームワークであるMoSEを提案する。
3つのKGデータセットの実験結果は、MoSEが最先端のMKGC法より優れていることを示している。
論文 参考訳(メタデータ) (2022-10-17T08:09:54Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。