論文の概要: More Context, Less Distraction: Zero-shot Visual Classification by
Inferring and Conditioning on Contextual Attributes
- arxiv url: http://arxiv.org/abs/2308.01313v2
- Date: Sun, 8 Oct 2023 21:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:12:25.161685
- Title: More Context, Less Distraction: Zero-shot Visual Classification by
Inferring and Conditioning on Contextual Attributes
- Title(参考訳): 文脈的属性の推測と条件付けによるゼロショット視覚分類
- Authors: Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya
Kumar Mummadi, Furong Huang
- Abstract要約: トレーニング不要で2段階のゼロショット分類手法であるPerceptionCLIPを提案する。
画像が与えられたら、まずコンテキスト属性(例えば背景)を推論し、その上でオブジェクト分類条件を実行する。
実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,解釈可能性を実現することがわかった。
- 参考スコア(独自算出の注目度): 35.521184586025285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models like CLIP are widely used in zero-shot image
classification due to their ability to understand various visual concepts and
natural language descriptions. However, how to fully leverage CLIP's
unprecedented human-like understanding capabilities to achieve better
performance is still an open question. This paper draws inspiration from the
human visual perception process: when classifying an object, humans first infer
contextual attributes (e.g., background and orientation) which help separate
the foreground object from the background, and then classify the object based
on this information. Inspired by it, we observe that providing CLIP with
contextual attributes improves zero-shot image classification and mitigates
reliance on spurious features. We also observe that CLIP itself can reasonably
infer the attributes from an image. With these observations, we propose a
training-free, two-step zero-shot classification method PerceptionCLIP. Given
an image, it first infers contextual attributes (e.g., background) and then
performs object classification conditioning on them. Our experiments show that
PerceptionCLIP achieves better generalization, group robustness, and
interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst
group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.
- Abstract(参考訳): CLIPのような視覚言語モデルは、様々な視覚概念や自然言語の記述を理解する能力のため、ゼロショット画像分類で広く使われている。
しかし、より優れたパフォーマンスを達成するために、CLIPの先例のない人間的な理解能力をフル活用する方法は、まだ未解決の問題である。
対象を分類する際、人はまず背景と向きの文脈的属性(例えば、背景と向き)を推論し、背景から対象を分離し、その情報に基づいて対象を分類する。
このことから,CLIPを文脈属性で提供することにより,ゼロショット画像の分類が向上し,スプリアス機能への依存が軽減されることがわかった。
また、CLIP自体が画像から属性を合理的に推測できることも観察します。
そこで本研究では,2段階のゼロショット分類手法であるPerceptionCLIPを提案する。
画像が与えられたら、まずコンテキスト属性(例えば背景)を推論し、その上でオブジェクト分類条件を実行する。
実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,解釈可能性を実現することがわかった。
例えば、ViT-L/14のPerceptionCLIPは、Waterbirdsデータセットで16.5%、CelebAで3.5%、最悪のグループ精度を改善する。
関連論文リスト
- FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos [19.08882495584709]
セマンティックな特性を損なうことなく,CLIPの細粒度・統語能力を高めることが可能であることを示す。
私たちは、高品質で包括的で比較的小さなデータセットにCLIPを効率的に適用します。
我々は、細部指向のセマンティック理解を保った強力な視覚表現であるファイングラインドCLIP(FiGCLIP)を学習する。
論文 参考訳(メタデータ) (2024-01-15T13:27:34Z) - Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP [92.7485653161698]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。