Fugu-MT 論文翻訳(概要): Does CLIP Bind Concepts? Probing Compositionality in Large Image Models

論文の概要: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models

arxiv url: http://arxiv.org/abs/2212.10537v1
Date: Tue, 20 Dec 2022 18:46:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 13:24:36.047964
Title: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
Title（参考訳）: CLIP Bind の概念は? 大規模画像モデルにおける構成性の探索
Authors: Martha Lewis, Qinan Yu, Jack Merullo, Ellie Pavlick
Abstract要約: 合成知識を必要とする画像のキャプションにおけるCLIPの有用性について検討した。 5つの構成言語モデルを実装し、CLIPが使用する構造の種類を探索する。我々は,これらのモデルを学習するための新しいトレーニングアルゴリズム,Composeal Skipgram for Imagesを開発した。
参考スコア（独自算出の注目度）: 15.943659272774735
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale models combining text and images have made incredible progress in recent years. However, they can still fail at tasks requiring compositional knowledge, such as correctly picking out a red cube from a picture of multiple shapes. We examine the ability of CLIP (Radford et al., 2021), to caption images requiring compositional knowledge. We implement five compositional language models to probe the kinds of structure that CLIP may be using, and develop a novel training algorithm, Compositional Skipgram for Images (CoSI), to train these models. We look at performance in attribute-based tasks, requiring the identification of a particular combination of attribute and object (such as "red cube"), and in relational settings, where the spatial relation between two shapes (such as "cube behind sphere") must be identified. We find that in some conditions, CLIP is able to learn attribute-object labellings, and to generalize to unseen attribute-object combinations. However, we also see evidence that CLIP is not able to bind features together reliably. Moreover, CLIP is not able to reliably learn relations between objects, whereas some compositional models are able to learn these perfectly. Of the five models we developed, none were able to generalize to unseen relations.
Abstract（参考訳）: 近年,テキストと画像を組み合わせた大規模モデルが飛躍的な進歩を遂げている。しかし、複数の形状の図から赤いキューブを正しく選択するなど、構成知識を必要とするタスクでは失敗する可能性がある。合成知識を必要とする画像のキャプションにおけるCLIP(Radford et al., 2021)の有用性を検討した。 5種類の合成言語モデルを実装し,CLIPが使用する可能性のある構造を探索し,これらのモデルをトレーニングするための新しいトレーニングアルゴリズムであるComposeal Skipgram for Images (CoSI)を開発した。属性ベースのタスクでは、属性とオブジェクト("赤い立方体"のような)の特定の組み合わせの識別が必要であり、関係性の設定では、2つの形(例えば"球の背後にあるキューブ")間の空間的関係を識別する必要がある。ある条件下では、CLIPは属性オブジェクトのラベルを学習し、未知の属性オブジェクトの組み合わせに一般化することができる。しかし、CLIPが機能同士を確実に結合できないという証拠もある。さらに、クリップはオブジェクト間の関係を確実に学習することができないが、一部の合成モデルはそれらを完璧に学習することができる。私たちが開発した5つのモデルのうち、見当たらない関係に一般化することはできなかった。

関連論文リスト

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability [9.90112908284836]
Sparse Autoencoders for Aligned Representation of Concepts)は,多種多様なアーキテクチャで共有される単一で統一された潜在空間を学習する新しいフレームワークである。 Open Imagesでは、概念のアライメントが劇的に改善され、ジャカードの類似性が0.80に到達した。
論文参考訳（メタデータ） (2025-07-07T22:29:00Z)
Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文参考訳（メタデータ） (2025-04-09T17:59:05Z)
Quantifying Interpretability in CLIP Models with Concept Consistency [5.921976812527759]
CLIPのようなモデルにおける注意頭のためのテキスト記述の概念的一貫性について検討する。本稿では,新しい解釈可能性尺度である概念一貫性スコア(CCS)を提案する。我々は,高いCCSヘッドが重要な概念を捕捉し,ドメイン外検出,概念固有の推論,ビデオ言語理解において重要な役割を担っていることを発見した。
論文参考訳（メタデータ） (2025-03-14T05:47:17Z)
Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。 USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文参考訳（メタデータ） (2025-02-06T02:06:16Z)
Graph-guided Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [54.08741382593959]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。異なる構成にまたがる一般的な非絡み合った原始的特徴を学ぶことは困難である。本稿では,複数のプリミティブ共有合成を入力として利用するクロスコンポジション特徴分散の解を提案する。
論文参考訳（メタデータ） (2024-08-19T08:23:09Z)
Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet [4.597864989500202]
埋め込みのマルチモーダルな性質を利用して画像のCLIP埋め込みを説明する新しいサリエンシ手法を提案する。 ConVisはWordNetからの語彙情報を利用して、終末モデルがトレーニングした概念に限らず、あらゆる概念に対してタスク非依存のSaliency Mapsを計算している。
論文参考訳（メタデータ） (2024-05-23T13:41:17Z)
CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文参考訳（メタデータ） (2023-05-26T07:02:57Z)
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment [17.423361070781876]
本研究では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。絡み合った概念化のために、粗い特徴を意味論的概念に関連する複数の潜在要因に分割する。セット・ツー・セットのアライメントにおいて、視覚概念の集合がテキスト概念の集合に対応する場合、セマンティック概念を集約する適応プーリング法を提案する。
論文参考訳（メタデータ） (2023-05-20T15:48:47Z)
Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文参考訳（メタデータ） (2022-08-08T21:39:26Z)
Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance Consistency [59.427074701985795]
単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。 i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
論文参考訳（メタデータ） (2022-04-21T17:47:35Z)
Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文参考訳（メタデータ） (2022-04-05T09:25:28Z)
Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文参考訳（メタデータ） (2021-02-03T10:11:03Z)
Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文参考訳（メタデータ） (2020-08-26T20:02:40Z)
Compositional Convolutional Neural Networks: A Robust and Interpretable Model for Object Recognition under Occlusion [21.737411464598797]
ブラックボックス深部畳み込みニューラルネットワーク(DCNN)は,部分閉塞に対する頑健性に限界がある。構成畳み込みニューラルネットワーク(CompositionalNets)に部分ベースモデルとDCNNを統合することで、これらの制限を克服する。実験により,コンポジションネットは,部分閉塞物体の分類・検出において,非構成対象に比べて大きなマージンで改善されていることが示された。
論文参考訳（メタデータ） (2020-06-28T08:18:19Z)
Linguistically Driven Graph Capsule Network for Visual Question Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。 CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文参考訳（メタデータ） (2020-03-23T03:34:25Z)
Segmentation and Recovery of Superquadric Models using Convolutional Neural Networks [2.454342521577328]
畳み込みニューラルネットワーク(CNN)を中心に構築された(二段階)アプローチを提案する。第1段階では,提案手法はMask RCNNモデルを用いて,深度シーンにおける超クワッドリックな構造を同定する。我々は、少数の解釈可能なパラメータを持つ複雑な構造を記述することができる。
論文参考訳（メタデータ） (2020-01-28T18:17:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。