Fugu-MT 論文翻訳(概要): Does CLIP Bind Concepts? Probing Compositionality in Large Image Models

論文の概要: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models

arxiv url: http://arxiv.org/abs/2212.10537v3
Date: Fri, 30 Aug 2024 04:51:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 20:50:35.756028
Title: Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
Title（参考訳）: CLIP バインディングの概念は有用か? : 大規模画像モデルにおける構成性の提案
Authors: Martha Lewis, Nihal V. Nayak, Peilin Yu, Qinan Yu, Jack Merullo, Stephen H. Bach, Ellie Pavlick,
Abstract要約: 構成概念をエンコードする大きな事前学習された視覚と言語モデル(CLIP)の能力に焦点を当てる。概念的バインディングをテストするために設計された3つの合成データセットでそれらをベンチマークする。 CLIPは単一オブジェクト設定で概念を構成することができるが、概念バインディングが必要な状況では、パフォーマンスが劇的に低下する。
参考スコア（独自算出の注目度）: 24.85238978067213
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large-scale neural network models combining text and images have made incredible progress in recent years. However, it remains an open question to what extent such models encode compositional representations of the concepts over which they operate, such as correctly identifying "red cube" by reasoning over the constituents "red" and "cube". In this work, we focus on the ability of a large pretrained vision and language model (CLIP) to encode compositional concepts and to bind variables in a structure-sensitive way (e.g., differentiating "cube behind sphere" from "sphere behind cube"). To inspect the performance of CLIP, we compare several architectures from research on compositional distributional semantics models (CDSMs), a line of research that attempts to implement traditional compositional linguistic structures within embedding spaces. We benchmark them on three synthetic datasets - single-object, two-object, and relational - designed to test concept binding. We find that CLIP can compose concepts in a single-object setting, but in situations where concept binding is needed, performance drops dramatically. At the same time, CDSMs also perform poorly, with best performance at chance level.
Abstract（参考訳）: テキストと画像を組み合わせた大規模ニューラルネットワークモデルは,近年,驚くべき進歩を遂げています。しかしながら、そのようなモデルが、どのようにしてそれらが作用する概念の合成表現をエンコードするかは未解決の問題であり、例えば「赤」と「キューブ」の成分を推論して「赤立方体」を正しく同定するなどである。本研究では,構成概念を符号化し,変数を構造に敏感な方法でバインドする,大規模な事前学習型視覚・言語モデル(CLIP)の能力に焦点を当てる(例:「球の裏面」と「立方体の後ろの球体」を区別する)。 CLIPの性能を調べるために,従来の構成言語構造を組込み空間内に実装しようとする研究の行であるCDSM(Composental Distributional semantics Model)の研究から,いくつかのアーキテクチャを比較した。概念的バインディングをテストするために設計された,3つの合成データセット – 単一オブジェクト,2オブジェクト,リレーショナル – でベンチマークを行った。 CLIPは単一オブジェクト設定で概念を構成することができるが、概念バインディングが必要な状況では、パフォーマンスが劇的に低下する。同時にCDSMも性能が悪く、性能も高い。

関連論文リスト

Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders [52.94006363830628]
言語対応の視覚基盤モデルは、下流の様々なタスクで強く機能する。近年の研究では、これらの表現を人間の解釈可能な概念に分解するが、空間的接地が乏しく、画像分類に限られている。入力画像に人間が解釈可能で空間的に接地した、きめ細かい概念を提供する言語対応概念基盤モデルであるInsightを提案する。
論文参考訳（メタデータ） (2026-01-20T09:57:26Z)
CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting [0.0]
人間は、クラスアイデンティティに頼るのではなく、視覚的反復と構造的関係を知覚することで、多種多様な物体を努力せずに数えることができる。本研究では,クラスに依存しないオブジェクトカウントのための繰り返しと構造的コヒーレンスを認識することを学ぶトランスフォーマーベースのフレームワークであるCountFormerを紹介する。
論文参考訳（メタデータ） (2025-10-27T19:16:02Z)
SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability [9.90112908284836]
Sparse Autoencoders for Aligned Representation of Concepts)は,多種多様なアーキテクチャで共有される単一で統一された潜在空間を学習する新しいフレームワークである。 Open Imagesでは、概念のアライメントが劇的に改善され、ジャカードの類似性が0.80に到達した。
論文参考訳（メタデータ） (2025-07-07T22:29:00Z)
Interpreting the linear structure of vision-language model embedding spaces [12.846590038965774]
我々は、4つの視覚言語モデルの埋め込み空間上でスパースオートエンコーダ(SAE)を訓練・リリースする。学習方向の疎線形結合としてのSAEs近似モデル埋め込み、あるいは「概念」異なる種や異なるデータダイエットでSAEをリトレーニングすることは、2つの発見につながる。SAEによって得られた稀で特異な概念は、劇的に変化するが、一般的に活性化される概念は、実行中に著しく安定していることも示している。
論文参考訳（メタデータ） (2025-04-16T01:40:06Z)
Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文参考訳（メタデータ） (2025-04-09T17:59:05Z)
Quantifying Interpretability in CLIP Models with Concept Consistency [5.921976812527759]
CLIPのようなモデルにおける注意頭のためのテキスト記述の概念的一貫性について検討する。本稿では,新しい解釈可能性尺度である概念一貫性スコア(CCS)を提案する。我々は,高いCCSヘッドが重要な概念を捕捉し,ドメイン外検出,概念固有の推論,ビデオ言語理解において重要な役割を担っていることを発見した。
論文参考訳（メタデータ） (2025-03-14T05:47:17Z)
Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。 USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文参考訳（メタデータ） (2025-02-06T02:06:16Z)
Graph-guided Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [54.08741382593959]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。異なる構成にまたがる一般的な非絡み合った原始的特徴を学ぶことは困難である。本稿では,複数のプリミティブ共有合成を入力として利用するクロスコンポジション特徴分散の解を提案する。
論文参考訳（メタデータ） (2024-08-19T08:23:09Z)
Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet [4.597864989500202]
埋め込みのマルチモーダルな性質を利用して画像のCLIP埋め込みを説明する新しいサリエンシ手法を提案する。 ConVisはWordNetからの語彙情報を利用して、終末モデルがトレーニングした概念に限らず、あらゆる概念に対してタスク非依存のSaliency Mapsを計算している。
論文参考訳（メタデータ） (2024-05-23T13:41:17Z)
CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文参考訳（メタデータ） (2023-05-26T07:02:57Z)
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment [17.423361070781876]
本研究では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。絡み合った概念化のために、粗い特徴を意味論的概念に関連する複数の潜在要因に分割する。セット・ツー・セットのアライメントにおいて、視覚概念の集合がテキスト概念の集合に対応する場合、セマンティック概念を集約する適応プーリング法を提案する。
論文参考訳（メタデータ） (2023-05-20T15:48:47Z)
Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文参考訳（メタデータ） (2022-08-08T21:39:26Z)
Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance Consistency [59.427074701985795]
単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。 i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
論文参考訳（メタデータ） (2022-04-21T17:47:35Z)
Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文参考訳（メタデータ） (2022-04-05T09:25:28Z)
Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文参考訳（メタデータ） (2021-02-03T10:11:03Z)
Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文参考訳（メタデータ） (2020-08-26T20:02:40Z)
Compositional Convolutional Neural Networks: A Robust and Interpretable Model for Object Recognition under Occlusion [21.737411464598797]
ブラックボックス深部畳み込みニューラルネットワーク(DCNN)は,部分閉塞に対する頑健性に限界がある。構成畳み込みニューラルネットワーク(CompositionalNets)に部分ベースモデルとDCNNを統合することで、これらの制限を克服する。実験により,コンポジションネットは,部分閉塞物体の分類・検出において,非構成対象に比べて大きなマージンで改善されていることが示された。
論文参考訳（メタデータ） (2020-06-28T08:18:19Z)
Linguistically Driven Graph Capsule Network for Visual Question Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。 CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文参考訳（メタデータ） (2020-03-23T03:34:25Z)
Segmentation and Recovery of Superquadric Models using Convolutional Neural Networks [2.454342521577328]
畳み込みニューラルネットワーク(CNN)を中心に構築された(二段階)アプローチを提案する。第1段階では,提案手法はMask RCNNモデルを用いて,深度シーンにおける超クワッドリックな構造を同定する。我々は、少数の解釈可能なパラメータを持つ複雑な構造を記述することができる。
論文参考訳（メタデータ） (2020-01-28T18:17:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。