論文の概要: Deciphering the Role of Representation Disentanglement: Investigating Compositional Generalization in CLIP Models
- arxiv url: http://arxiv.org/abs/2407.05897v2
- Date: Tue, 16 Jul 2024 05:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:20:06.398220
- Title: Deciphering the Role of Representation Disentanglement: Investigating Compositional Generalization in CLIP Models
- Title(参考訳): 表現の絡み合いの役割の解明--CLIPモデルにおける構成的一般化の考察
- Authors: Reza Abbasi, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah,
- Abstract要約: 構成分布(C-OoD)の一般化はCLIPモデルでは比較的未探索である。
本研究は,CLIPモデルの一般化において,画像およびテキスト表現の歪み,特に構成要素について重要な役割を担っていることを明らかにした。
- 参考スコア(独自算出の注目度): 3.9326597037266455
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: CLIP models have recently shown to exhibit Out of Distribution (OoD) generalization capabilities. However, Compositional Out of Distribution (C-OoD) generalization, which is a crucial aspect of a model's ability to understand unseen compositions of known concepts, is relatively unexplored for the CLIP models. Our goal is to address this problem and identify the factors that contribute to the C-OoD in CLIPs. We noted that previous studies regarding compositional understanding of CLIPs frequently fail to ensure that test samples are genuinely novel relative to the CLIP training data. To this end, we carefully synthesized a large and diverse dataset in the single object setting, comprising attributes for objects that are highly unlikely to be encountered in the combined training datasets of various CLIP models. This dataset enables an authentic evaluation of C-OoD generalization. Our observations reveal varying levels of C-OoD generalization across different CLIP models. We propose that the disentanglement of CLIP representations serves as a critical indicator in this context. By utilizing our synthesized datasets and other existing datasets, we assess various disentanglement metrics of text and image representations. Our study reveals that the disentanglement of image and text representations, particularly with respect to their compositional elements, plays a crucial role in improving the generalization of CLIP models in out-of-distribution settings. This finding suggests promising opportunities for advancing out-of-distribution generalization in CLIPs.
- Abstract(参考訳): CLIPモデルは、最近、OoD(Out of Distribution)の一般化機能を示す。
しかし、CLIPモデルでは、既知の概念の未知の合成を理解するためのモデルの能力の重要な側面である構成外分布(C-OoD)の一般化は、比較的未解明である。
私たちのゴールは、CLIPのC-OoDに寄与する要因を特定し、この問題に対処することです。
CLIPの合成理解に関するこれまでの研究は、テストサンプルがCLIPトレーニングデータに対して真に新しいものであることを保証できないことが多かった。
この目的のために、我々は、CLIPモデルの複合トレーニングデータセットに遭遇する可能性が極めて低いオブジェクトの属性を含む、大規模で多様なデータセットを単一のオブジェクト設定で慎重に合成した。
このデータセットは、C-OoD一般化の真正性評価を可能にする。
各種CLIPモデルにおけるC-OoDの一般化について検討した。
本稿では,CLIP表現のアンタングル化が,この文脈における重要な指標となることを提案する。
合成データセットやその他の既存のデータセットを利用することで、テキストと画像表現の様々なアンタングルメント指標を評価する。
本研究は,画像およびテキスト表現の歪み,特に構成要素に関して,CLIPモデルのアウト・オブ・ディストリビューション・セッティングにおける一般化に重要な役割を担っていることを明らかにした。
この発見は、CLIPにおけるアウト・オブ・ディストリビューションの一般化を促進する有望な機会を示唆している。
関連論文リスト
- Toward a Holistic Evaluation of Robustness in CLIP Models [11.148206692373144]
対照的な言語-画像事前学習(CLIP)モデルは、ゼロショット分類において有意な可能性を示している。
この作業は、いくつかの新しい視点を導入することで、より包括的なCLIPの評価を提供することを目的としている。
それぞれの側面において、モデルアーキテクチャ、トレーニング配布、トレーニングセットサイズ、微調整、コントラスト損失、テストタイムプロンプトの6つの要因がCLIPモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2024-10-02T13:26:17Z) - Individuation in Neural Models with and without Visual Grounding [19.007546108571116]
言語とビジョンのモデルであるCLIPと2つのテキストのみのモデルの違いを示す。
CLIPの埋め込みは、テキストのみのデータで訓練されたモデルよりも、識別の定量的な違いを捉えていることを実証する。
論文 参考訳(メタデータ) (2024-09-27T16:04:06Z) - Quantifying and Enabling the Interpretability of CLIP-like Models [19.459369149558405]
本稿では,OpenAIとOpenCLIPの6種類のCLIPモデルについて検討する。
我々のアプローチは、TEXTSPANアルゴリズムとコンテキスト内学習を用いて、個々の注意を特定の特性に分解することから始まります。
以上の結果から,より大型のCLIPモデルはより小型のCLIPモデルよりも一般的に解釈可能であることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-10T15:19:40Z) - Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [49.919635694894204]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。
本稿では,複数のプリミティブ・シェアリング・コンポジションを入力とし,これらのコンポジションにまたがって一般化されるような不整合プリミティブ・コンポジションを制約するクロス・コンポジション・コンストラクション・ディエンタングルメントの解を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:23:09Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP [3.5999252362400993]
本研究では,視覚言語モデルが,属性オブジェクト対の新たな構成で画像の分類を成功させるかどうかを考察する。
その結果,OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットを用いてトレーニングしたCLIPは, 有効合成OoDの一般化において, オーダー・オブ・マグニチュードの改善を示すことがわかった。
本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T12:59:44Z) - Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations [19.800907485589402]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - An Empirical Study of CLIP for Text-based Person Search [51.94743973155648]
テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。
Contrastive Language Image Pretraining (CLIP)は、多種多様なモダル下流タスクにおいて、多種多様なモダル横断視覚言語事前訓練モデルである。
本稿では,TBPSタスクに対するCLIPの総合的研究を初めて行おうとする。
論文 参考訳(メタデータ) (2023-08-19T15:08:10Z) - Enabling Calibration In The Zero-Shot Inference of Large Vision-Language
Models [58.720142291102135]
プロンプト、データセット、アーキテクチャといった関連する変数のキャリブレーションを測定し、CLIPによるゼロショット推論が誤校正されていることを見つけます。
学習した1つの温度は、推論データセットにまたがって特定のCLIPモデルごとに一般化され、選択が促される。
論文 参考訳(メタデータ) (2023-03-11T17:14:04Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。