論文の概要: More Context, Less Distraction: Visual Classification by Inferring and
Conditioning on Contextual Attributes
- arxiv url: http://arxiv.org/abs/2308.01313v1
- Date: Wed, 2 Aug 2023 17:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:03:56.017851
- Title: More Context, Less Distraction: Visual Classification by Inferring and
Conditioning on Contextual Attributes
- Title(参考訳): より多くのコンテキスト、より邪魔にならない:コンテキスト属性の推論とコンディショニングによる視覚的分類
- Authors: Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya
Kumar Mummadi, Furong Huang
- Abstract要約: 本稿では,PerceptionCLIP という2段階のゼロショット分類手法を提案する。
実験の結果, PerceptionCLIP はより一般化され, グループ堅牢性が向上し, 解釈可能性も向上することがわかった。
- 参考スコア(独自算出の注目度): 17.299276043057834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP, as a foundational vision language model, is widely used in zero-shot
image classification due to its ability to understand various visual concepts
and natural language descriptions. However, how to fully leverage CLIP's
unprecedented human-like understanding capabilities to achieve better zero-shot
classification is still an open question. This paper draws inspiration from the
human visual perception process: a modern neuroscience view suggests that in
classifying an object, humans first infer its class-independent attributes
(e.g., background and orientation) which help separate the foreground object
from the background, and then make decisions based on this information.
Inspired by this, we observe that providing CLIP with contextual attributes
improves zero-shot classification and mitigates reliance on spurious features.
We also observe that CLIP itself can reasonably infer the attributes from an
image. With these observations, we propose a training-free, two-step zero-shot
classification method named PerceptionCLIP. Given an image, it first infers
contextual attributes (e.g., background) and then performs object
classification conditioning on them. Our experiments show that PerceptionCLIP
achieves better generalization, group robustness, and better interpretability.
For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by
16.5% on the Waterbirds dataset and by 3.5% on CelebA.
- Abstract(参考訳): 基本的な視覚言語モデルであるCLIPは、様々な視覚概念や自然言語の記述を理解する能力から、ゼロショット画像分類において広く使われている。
しかし、より優れたゼロショット分類を達成するために、CLIPの先例のない人間的な理解能力をフル活用する方法は、まだ未解決の問題である。
現代の神経科学的な見解は、物体の分類において、人はまず、前景の物体を背景から切り離すのに役立つクラス非依存の属性(例えば、背景と向き)を推測し、その情報に基づいて決定を行うことを示唆している。
このことから,CLIPを文脈属性で提供することにより,ゼロショット分類が向上し,スプリアス機能への依存が軽減されることがわかった。
また、CLIP自体が画像から属性を合理的に推測できることも観察します。
そこで本研究では,PerceptionCLIPという2段階のゼロショット分類手法を提案する。
画像が与えられたら、まずコンテキスト属性(例えば背景)を推論し、その上でオブジェクト分類条件を実行する。
実験の結果, PerceptionCLIP はより一般化され, グループ堅牢性が向上し, 解釈可能性も向上することがわかった。
例えば、ViT-L/14のPerceptionCLIPは、Waterbirdsデータセットで16.5%、CelebAで3.5%、最悪のグループ精度を改善する。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Interpreting and Analyzing CLIP's Zero-Shot Image Classification via Mutual Knowledge [20.09852220432504]
Contrastive Language-Image Pretraining (CLIP)は画像とテキストのクラス表現を共有埋め込み空間にマッピングすることでゼロショット画像分類を行う。
この研究は、2つのモード間の相互知識のレンズから、画像分類のためのCLIPモデルを解釈するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-16T20:18:21Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos [19.08882495584709]
セマンティックな特性を損なうことなく,CLIPの細粒度・統語能力を高めることが可能であることを示す。
私たちは、高品質で包括的で比較的小さなデータセットにCLIPを効率的に適用します。
我々は、細部指向のセマンティック理解を保った強力な視覚表現であるファイングラインドCLIP(FiGCLIP)を学習する。
論文 参考訳(メタデータ) (2024-01-15T13:27:34Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - CLIP-Art: Contrastive Pre-training for Fine-Grained Art Classification [7.6146285961466]
私たちは、CLIP(Contrastive Language- Image Pre-Training)を使用して、さまざまなアートイメージとテキスト記述ペアでニューラルネットワークをトレーニングする最初の方法の1つです。
本手法は,インスタンス検索と細粒度アートワーク属性認識という2つの課題を解決することを目的としている。
このベンチマークでは、自己スーパービジョンのみを使用して、競争結果を達成しました。
論文 参考訳(メタデータ) (2022-04-29T17:17:24Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。