論文の概要: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
- arxiv url: http://arxiv.org/abs/2212.10537v1
- Date: Tue, 20 Dec 2022 18:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:24:36.047964
- Title: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
- Title(参考訳): CLIP Bind の概念は?
大規模画像モデルにおける構成性の探索
- Authors: Martha Lewis, Qinan Yu, Jack Merullo, Ellie Pavlick
- Abstract要約: 合成知識を必要とする画像のキャプションにおけるCLIPの有用性について検討した。
5つの構成言語モデルを実装し、CLIPが使用する構造の種類を探索する。
我々は,これらのモデルを学習するための新しいトレーニングアルゴリズム,Composeal Skipgram for Imagesを開発した。
- 参考スコア(独自算出の注目度): 15.943659272774735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale models combining text and images have made incredible progress in
recent years. However, they can still fail at tasks requiring compositional
knowledge, such as correctly picking out a red cube from a picture of multiple
shapes. We examine the ability of CLIP (Radford et al., 2021), to caption
images requiring compositional knowledge. We implement five compositional
language models to probe the kinds of structure that CLIP may be using, and
develop a novel training algorithm, Compositional Skipgram for Images (CoSI),
to train these models. We look at performance in attribute-based tasks,
requiring the identification of a particular combination of attribute and
object (such as "red cube"), and in relational settings, where the spatial
relation between two shapes (such as "cube behind sphere") must be identified.
We find that in some conditions, CLIP is able to learn attribute-object
labellings, and to generalize to unseen attribute-object combinations. However,
we also see evidence that CLIP is not able to bind features together reliably.
Moreover, CLIP is not able to reliably learn relations between objects, whereas
some compositional models are able to learn these perfectly. Of the five models
we developed, none were able to generalize to unseen relations.
- Abstract(参考訳): 近年,テキストと画像を組み合わせた大規模モデルが飛躍的な進歩を遂げている。
しかし、複数の形状の図から赤いキューブを正しく選択するなど、構成知識を必要とするタスクでは失敗する可能性がある。
合成知識を必要とする画像のキャプションにおけるCLIP(Radford et al., 2021)の有用性を検討した。
5種類の合成言語モデルを実装し,CLIPが使用する可能性のある構造を探索し,これらのモデルをトレーニングするための新しいトレーニングアルゴリズムであるComposeal Skipgram for Images (CoSI)を開発した。
属性ベースのタスクでは、属性とオブジェクト("赤い立方体"のような)の特定の組み合わせの識別が必要であり、関係性の設定では、2つの形(例えば"球の背後にあるキューブ")間の空間的関係を識別する必要がある。
ある条件下では、CLIPは属性オブジェクトのラベルを学習し、未知の属性オブジェクトの組み合わせに一般化することができる。
しかし、CLIPが機能同士を確実に結合できないという証拠もある。
さらに、クリップはオブジェクト間の関係を確実に学習することができないが、一部の合成モデルはそれらを完璧に学習することができる。
私たちが開発した5つのモデルのうち、見当たらない関係に一般化することはできなかった。
関連論文リスト
- Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet [4.597864989500202]
埋め込みのマルチモーダルな性質を利用して画像のCLIP埋め込みを説明する新しいサリエンシ手法を提案する。
ConVisはWordNetからの語彙情報を利用して、終末モデルがトレーニングした概念に限らず、あらゆる概念に対してタスク非依存のSaliency Mapsを計算している。
論文 参考訳(メタデータ) (2024-05-23T13:41:17Z) - CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。
本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。
さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文 参考訳(メタデータ) (2023-05-26T07:02:57Z) - Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set
Alignment [17.423361070781876]
本研究では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。
絡み合った概念化のために、粗い特徴を意味論的概念に関連する複数の潜在要因に分割する。
セット・ツー・セットのアライメントにおいて、視覚概念の集合がテキスト概念の集合に対応する場合、セマンティック概念を集約する適応プーリング法を提案する。
論文 参考訳(メタデータ) (2023-05-20T15:48:47Z) - Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。
一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文 参考訳(メタデータ) (2022-08-08T21:39:26Z) - Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance
Consistency [59.427074701985795]
単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。
異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。
i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
論文 参考訳(メタデータ) (2022-04-21T17:47:35Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。
本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文 参考訳(メタデータ) (2021-02-03T10:11:03Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z) - Compositional Convolutional Neural Networks: A Robust and Interpretable
Model for Object Recognition under Occlusion [21.737411464598797]
ブラックボックス深部畳み込みニューラルネットワーク(DCNN)は,部分閉塞に対する頑健性に限界がある。
構成畳み込みニューラルネットワーク(CompositionalNets)に部分ベースモデルとDCNNを統合することで、これらの制限を克服する。
実験により,コンポジションネットは,部分閉塞物体の分類・検出において,非構成対象に比べて大きなマージンで改善されていることが示された。
論文 参考訳(メタデータ) (2020-06-28T08:18:19Z) - Linguistically Driven Graph Capsule Network for Visual Question
Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文 参考訳(メタデータ) (2020-03-23T03:34:25Z) - Segmentation and Recovery of Superquadric Models using Convolutional
Neural Networks [2.454342521577328]
畳み込みニューラルネットワーク(CNN)を中心に構築された(二段階)アプローチを提案する。
第1段階では,提案手法はMask RCNNモデルを用いて,深度シーンにおける超クワッドリックな構造を同定する。
我々は、少数の解釈可能なパラメータを持つ複雑な構造を記述することができる。
論文 参考訳(メタデータ) (2020-01-28T18:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。