Fugu-MT 論文翻訳(概要): Does CLIP Bind Concepts? Probing Compositionality in Large Image Models

論文の概要: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models

arxiv url: http://arxiv.org/abs/2212.10537v2
Date: Wed, 29 Mar 2023 15:34:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-30 18:07:49.166918
Title: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
Title（参考訳）: CLIP Bind の概念は? 大規模画像モデルにおける構成性の探索
Authors: Martha Lewis, Nihal V. Nayak, Peilin Yu, Qinan Yu, Jack Merullo, Stephen H. Bach, Ellie Pavlick
Abstract要約: 本研究では,大規模な事前学習型視覚・言語モデル(CLIP)の合成概念を符号化する能力について検討する。 CLIPは単一オブジェクト設定で概念を構成することができるが、概念バインディングが必要な状況では、パフォーマンスが劇的に低下する。
参考スコア（独自算出の注目度）: 19.68709616891511
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale neural network models combining text and images have made incredible progress in recent years. However, it remains an open question to what extent such models encode compositional representations of the concepts over which they operate, such as correctly identifying ''red cube'' by reasoning over the constituents ''red'' and ''cube''. In this work, we focus on the ability of a large pretrained vision and language model (CLIP) to encode compositional concepts and to bind variables in a structure-sensitive way (e.g., differentiating ''cube behind sphere'' from ''sphere behind cube''). In order to inspect the performance of CLIP, we compare several architectures from research on compositional distributional semantics models (CDSMs), a line of research that attempts to implement traditional compositional linguistic structures within embedding spaces. We find that CLIP can compose concepts in a single-object setting, but in situations where concept binding is needed, performance drops dramatically. At the same time, CDSMs also perform poorly, with best performance at chance level.
Abstract（参考訳）: 近年,テキストと画像を組み合わせた大規模ニューラルネットワークモデルが飛躍的な進歩を遂げている。しかし、そのようなモデルが「赤」と「キューブ」の成分を推論して「赤立方体」を正しく識別するなど、それらが作用する概念の構成表現をどの程度エンコードしているかは、未解決のままである。本研究では,大規模事前学習型視覚・言語モデル (CLIP) が構成概念を符号化し,変数を構造に敏感な方法で結合する能力に着目した(例:'cube behind sphere' を「立方体の背後の球体」と区別する)。 CLIPの性能を検査するために,従来の構成言語構造を組込み空間内に実装しようとする研究の行であるCDSM(Composental Distributional semantics Model)の研究から,いくつかのアーキテクチャを比較した。 CLIPは単一オブジェクト設定で概念を構成することができるが、概念バインディングが必要な状況では、パフォーマンスが劇的に低下する。同時にcdsmsはパフォーマンスが悪く、最高のパフォーマンスは偶然のレベルである。

関連論文リスト

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability [9.90112908284836]
Sparse Autoencoders for Aligned Representation of Concepts)は,多種多様なアーキテクチャで共有される単一で統一された潜在空間を学習する新しいフレームワークである。 Open Imagesでは、概念のアライメントが劇的に改善され、ジャカードの類似性が0.80に到達した。
論文参考訳（メタデータ） (2025-07-07T22:29:00Z)
Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文参考訳（メタデータ） (2025-04-09T17:59:05Z)
Quantifying Interpretability in CLIP Models with Concept Consistency [5.921976812527759]
CLIPのようなモデルにおける注意頭のためのテキスト記述の概念的一貫性について検討する。本稿では,新しい解釈可能性尺度である概念一貫性スコア(CCS)を提案する。我々は,高いCCSヘッドが重要な概念を捕捉し,ドメイン外検出,概念固有の推論,ビデオ言語理解において重要な役割を担っていることを発見した。
論文参考訳（メタデータ） (2025-03-14T05:47:17Z)
Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。 USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文参考訳（メタデータ） (2025-02-06T02:06:16Z)
Graph-guided Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [54.08741382593959]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。異なる構成にまたがる一般的な非絡み合った原始的特徴を学ぶことは困難である。本稿では,複数のプリミティブ共有合成を入力として利用するクロスコンポジション特徴分散の解を提案する。
論文参考訳（メタデータ） (2024-08-19T08:23:09Z)
Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet [4.597864989500202]
埋め込みのマルチモーダルな性質を利用して画像のCLIP埋め込みを説明する新しいサリエンシ手法を提案する。 ConVisはWordNetからの語彙情報を利用して、終末モデルがトレーニングした概念に限らず、あらゆる概念に対してタスク非依存のSaliency Mapsを計算している。
論文参考訳（メタデータ） (2024-05-23T13:41:17Z)
CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文参考訳（メタデータ） (2023-05-26T07:02:57Z)
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment [17.423361070781876]
本研究では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。絡み合った概念化のために、粗い特徴を意味論的概念に関連する複数の潜在要因に分割する。セット・ツー・セットのアライメントにおいて、視覚概念の集合がテキスト概念の集合に対応する場合、セマンティック概念を集約する適応プーリング法を提案する。
論文参考訳（メタデータ） (2023-05-20T15:48:47Z)
Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文参考訳（メタデータ） (2022-08-08T21:39:26Z)
Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance Consistency [59.427074701985795]
単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。 i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
論文参考訳（メタデータ） (2022-04-21T17:47:35Z)
Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文参考訳（メタデータ） (2022-04-05T09:25:28Z)
Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文参考訳（メタデータ） (2021-02-03T10:11:03Z)
Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文参考訳（メタデータ） (2020-08-26T20:02:40Z)
Compositional Convolutional Neural Networks: A Robust and Interpretable Model for Object Recognition under Occlusion [21.737411464598797]
ブラックボックス深部畳み込みニューラルネットワーク(DCNN)は,部分閉塞に対する頑健性に限界がある。構成畳み込みニューラルネットワーク(CompositionalNets)に部分ベースモデルとDCNNを統合することで、これらの制限を克服する。実験により,コンポジションネットは,部分閉塞物体の分類・検出において,非構成対象に比べて大きなマージンで改善されていることが示された。
論文参考訳（メタデータ） (2020-06-28T08:18:19Z)
Linguistically Driven Graph Capsule Network for Visual Question Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。 CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文参考訳（メタデータ） (2020-03-23T03:34:25Z)
Segmentation and Recovery of Superquadric Models using Convolutional Neural Networks [2.454342521577328]
畳み込みニューラルネットワーク(CNN)を中心に構築された(二段階)アプローチを提案する。第1段階では,提案手法はMask RCNNモデルを用いて,深度シーンにおける超クワッドリックな構造を同定する。我々は、少数の解釈可能なパラメータを持つ複雑な構造を記述することができる。
論文参考訳（メタデータ） (2020-01-28T18:17:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。