論文の概要: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
- arxiv url: http://arxiv.org/abs/2212.10537v1
- Date: Tue, 20 Dec 2022 18:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:24:36.047964
- Title: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
- Title(参考訳): CLIP Bind の概念は?
大規模画像モデルにおける構成性の探索
- Authors: Martha Lewis, Qinan Yu, Jack Merullo, Ellie Pavlick
- Abstract要約: 合成知識を必要とする画像のキャプションにおけるCLIPの有用性について検討した。
5つの構成言語モデルを実装し、CLIPが使用する構造の種類を探索する。
我々は,これらのモデルを学習するための新しいトレーニングアルゴリズム,Composeal Skipgram for Imagesを開発した。
- 参考スコア(独自算出の注目度): 15.943659272774735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale models combining text and images have made incredible progress in
recent years. However, they can still fail at tasks requiring compositional
knowledge, such as correctly picking out a red cube from a picture of multiple
shapes. We examine the ability of CLIP (Radford et al., 2021), to caption
images requiring compositional knowledge. We implement five compositional
language models to probe the kinds of structure that CLIP may be using, and
develop a novel training algorithm, Compositional Skipgram for Images (CoSI),
to train these models. We look at performance in attribute-based tasks,
requiring the identification of a particular combination of attribute and
object (such as "red cube"), and in relational settings, where the spatial
relation between two shapes (such as "cube behind sphere") must be identified.
We find that in some conditions, CLIP is able to learn attribute-object
labellings, and to generalize to unseen attribute-object combinations. However,
we also see evidence that CLIP is not able to bind features together reliably.
Moreover, CLIP is not able to reliably learn relations between objects, whereas
some compositional models are able to learn these perfectly. Of the five models
we developed, none were able to generalize to unseen relations.
- Abstract(参考訳): 近年,テキストと画像を組み合わせた大規模モデルが飛躍的な進歩を遂げている。
しかし、複数の形状の図から赤いキューブを正しく選択するなど、構成知識を必要とするタスクでは失敗する可能性がある。
合成知識を必要とする画像のキャプションにおけるCLIP(Radford et al., 2021)の有用性を検討した。
5種類の合成言語モデルを実装し,CLIPが使用する可能性のある構造を探索し,これらのモデルをトレーニングするための新しいトレーニングアルゴリズムであるComposeal Skipgram for Images (CoSI)を開発した。
属性ベースのタスクでは、属性とオブジェクト("赤い立方体"のような)の特定の組み合わせの識別が必要であり、関係性の設定では、2つの形(例えば"球の背後にあるキューブ")間の空間的関係を識別する必要がある。
ある条件下では、CLIPは属性オブジェクトのラベルを学習し、未知の属性オブジェクトの組み合わせに一般化することができる。
しかし、CLIPが機能同士を確実に結合できないという証拠もある。
さらに、クリップはオブジェクト間の関係を確実に学習することができないが、一部の合成モデルはそれらを完璧に学習することができる。
私たちが開発した5つのモデルのうち、見当たらない関係に一般化することはできなかった。
関連論文リスト
- Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE) [23.993903128858832]
CLIPの潜在空間は高度に構造化されており、CLIP表現を基盤となるセマンティックコンポーネントに分解できることを示す。
そこで本研究では,CLIP表現を疎線形に変換する新しい手法であるスパース線形概念埋め込み(SpLiCE)を提案する。
論文 参考訳(メタデータ) (2024-02-16T00:04:36Z) - Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - CLIP-QDA: An Explainable Concept Bottleneck Model [2.3813076674916034]
本稿では,高速かつ説明可能な画像分類を行うマルチモーダル基礎モデルから設計した説明可能なアルゴリズムを提案する。
我々の説明は計算を高速化しながら既存のXAI手法と競合する。
論文 参考訳(メタデータ) (2023-11-30T18:19:47Z) - CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。
本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。
さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文 参考訳(メタデータ) (2023-05-26T07:02:57Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot
Learning [80.29186197773636]
合成ゼロショット学習(CZSL)タスクは、目に見えない視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。
本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文 参考訳(メタデータ) (2021-02-03T10:11:03Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z) - A Study of Compositional Generalization in Neural Models [22.66002315559978]
本稿では,合成概念や関係概念から画像を生成するConceptWorldを紹介する。
我々は、合成論と関係を一般化する標準ニューラルネットワークの能力をテストする実験を行う。
単純な問題に対して、すべてのモデルは閉じた概念によく一般化するが、より長い構成的連鎖に苦しむ。
論文 参考訳(メタデータ) (2020-06-16T18:29:58Z) - Deep Grouping Model for Unified Perceptual Parsing [36.73032339428497]
知覚に基づくグループ化プロセスは階層的および構成的イメージ表現を生成する。
本稿では,2種類の表現を密に結合したディープグルーピングモデル(DGM)を提案し,特徴交換のためのボトムアップとトップダウンプロセスを定義する。
このモデルは、他の文脈ベースセグメンテーションモデルと比較して計算オーバーヘッドが小さく、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-03-25T21:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。