論文の概要: Evaluating Compositional Generalisation in VLMs and Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.20783v1
- Date: Thu, 28 Aug 2025 13:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.427862
- Title: Evaluating Compositional Generalisation in VLMs and Diffusion Models
- Title(参考訳): VLMと拡散モデルにおける組成一般化の評価
- Authors: Beth Pearson, Bilal Boulbarss, Michael Wray, Martha Lewis,
- Abstract要約: 自然言語の意味論の基本的な側面は、前述した部分の合成から新しい意味を形成することができることである。
Diffusion、CLIP、ViLTの3つの視覚言語モデルについて、属性と関係を持つオブジェクトをバインドする能力について評価する。
以上の結果から,Diffusion と ViLT は概念的バインディングタスクにおいて良好に機能することが示された。
- 参考スコア(独自算出の注目度): 7.571752121443737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental aspect of the semantics of natural language is that novel meanings can be formed from the composition of previously known parts. Vision-language models (VLMs) have made significant progress in recent years, however, there is evidence that they are unable to perform this kind of composition. For example, given an image of a red cube and a blue cylinder, a VLM such as CLIP is likely to incorrectly label the image as a red cylinder or a blue cube, indicating it represents the image as a `bag-of-words' and fails to capture compositional semantics. Diffusion models have recently gained significant attention for their impressive generative abilities, and zero-shot classifiers based on diffusion models have been shown to perform competitively with CLIP in certain compositional tasks. In this work we explore whether the generative Diffusion Classifier has improved compositional generalisation abilities compared to discriminative models. We assess three models -- Diffusion Classifier, CLIP, and ViLT -- on their ability to bind objects with attributes and relations in both zero-shot learning (ZSL) and generalised zero-shot learning (GZSL) settings. Our results show that the Diffusion Classifier and ViLT perform well at concept binding tasks, but that all models struggle significantly with the relational GZSL task, underscoring the broader challenges VLMs face with relational reasoning. Analysis of CLIP embeddings suggests that the difficulty may stem from overly similar representations of relational concepts such as left and right. Code and dataset are available at: https://github.com/otmive/diffusion_classifier_clip
- Abstract(参考訳): 自然言語の意味論の基本的な側面は、前述した部分の合成から新しい意味を形成することができることである。
近年,視覚言語モデル (VLM) は大きな進歩を遂げているが,このような構成を行うことができないという証拠もある。
例えば、赤いキューブと青いシリンダーの画像が与えられた場合、CLIPのようなVLMは誤ってイメージを赤いシリンダーまたは青いキューブとラベル付けし、そのイメージを「バグ・オブ・ワード」として表現し、構成的意味論を捉えることができないことを示す。
拡散モデルは最近、その顕著な生成能力に対して大きな注目を集めており、拡散モデルに基づくゼロショット分類器は、特定の構成タスクにおいてCLIPと競合することが示されている。
本研究では、生成拡散分類器が、識別モデルと比較して構成一般化能力を改善したかどうかを考察する。
ゼロショット学習(ZSL)と一般化ゼロショット学習(GZSL)の両方の設定において、オブジェクトと属性と関係をバインドする能力に基づいて、拡散分類器、CLIP、ViLTの3つのモデルを評価する。
以上の結果から,Diffusion Classifier と ViLT は概念結合タスクにおいて良好に機能することが示されたが,すべてのモデルが関係GZSL タスクと大きく競合し,VLM が関係推論で直面する課題を浮き彫りにしている。
CLIPの埋め込みの解析は、この難しさは、左や右のような関係概念の過度に類似した表現から生じる可能性があることを示唆している。
コードとデータセットは、https://github.com/otmive/diffusion_classifier_clip.comで入手できる。
関連論文リスト
- Diffusion Classifiers Understand Compositionality, but Conditions Apply [35.37894720627495]
本稿では,多種多様な構成課題における拡散分類器の識別能力について検討する。
具体的には,10のデータセットと30以上のタスクにまたがる3つの拡散モデル(SD 1.5,2.0,および3m)について検討する。
また,拡散モデル自体が生成した画像からなる新たな診断ベンチマークも導入した。
論文 参考訳(メタデータ) (2025-05-23T14:29:52Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Revealing the Proximate Long-Tail Distribution in Compositional
Zero-Shot Learning [20.837664254230567]
合成ゼロショット学習(CZSL)は、目に見える状態オブジェクト対から新しいペアへ知識を伝達することを目的としている。
状態オブジェクトの組み合わせの予測によって引き起こされる視覚バイアスは、識別可能なクラスプロトタイプの学習を妨げる視覚的特徴を曖昧にする。
CZSLの長尾分布におけるクラスの役割を数学的に推定する。
この知見に基づいて, 合成による視覚的偏見を分類器の訓練と推定に組み入れ, 事前の近似クラスとして推定する。
論文 参考訳(メタデータ) (2023-12-26T07:35:02Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。