Fugu-MT 論文翻訳(概要): More Context, Less Distraction: Zero-shot Visual Classification by Inferring and Conditioning on Contextual Attributes

論文の概要: More Context, Less Distraction: Zero-shot Visual Classification by Inferring and Conditioning on Contextual Attributes

arxiv url: http://arxiv.org/abs/2308.01313v2
Date: Sun, 8 Oct 2023 21:56:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 05:12:25.161685
Title: More Context, Less Distraction: Zero-shot Visual Classification by Inferring and Conditioning on Contextual Attributes
Title（参考訳）: 文脈的属性の推測と条件付けによるゼロショット視覚分類
Authors: Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang
Abstract要約: トレーニング不要で2段階のゼロショット分類手法であるPerceptionCLIPを提案する。画像が与えられたら、まずコンテキスト属性(例えば背景)を推論し、その上でオブジェクト分類条件を実行する。実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,解釈可能性を実現することがわかった。
参考スコア（独自算出の注目度）: 35.521184586025285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models like CLIP are widely used in zero-shot image classification due to their ability to understand various visual concepts and natural language descriptions. However, how to fully leverage CLIP's unprecedented human-like understanding capabilities to achieve better performance is still an open question. This paper draws inspiration from the human visual perception process: when classifying an object, humans first infer contextual attributes (e.g., background and orientation) which help separate the foreground object from the background, and then classify the object based on this information. Inspired by it, we observe that providing CLIP with contextual attributes improves zero-shot image classification and mitigates reliance on spurious features. We also observe that CLIP itself can reasonably infer the attributes from an image. With these observations, we propose a training-free, two-step zero-shot classification method PerceptionCLIP. Given an image, it first infers contextual attributes (e.g., background) and then performs object classification conditioning on them. Our experiments show that PerceptionCLIP achieves better generalization, group robustness, and interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.
Abstract（参考訳）: CLIPのような視覚言語モデルは、様々な視覚概念や自然言語の記述を理解する能力のため、ゼロショット画像分類で広く使われている。しかし、より優れたパフォーマンスを達成するために、CLIPの先例のない人間的な理解能力をフル活用する方法は、まだ未解決の問題である。対象を分類する際、人はまず背景と向きの文脈的属性(例えば、背景と向き)を推論し、背景から対象を分離し、その情報に基づいて対象を分類する。このことから,CLIPを文脈属性で提供することにより,ゼロショット画像の分類が向上し,スプリアス機能への依存が軽減されることがわかった。また、CLIP自体が画像から属性を合理的に推測できることも観察します。そこで本研究では,2段階のゼロショット分類手法であるPerceptionCLIPを提案する。画像が与えられたら、まずコンテキスト属性(例えば背景)を推論し、その上でオブジェクト分類条件を実行する。実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,解釈可能性を実現することがわかった。例えば、ViT-L/14のPerceptionCLIPは、Waterbirdsデータセットで16.5%、CelebAで3.5%、最悪のグループ精度を改善する。

関連論文リスト

SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文参考訳（メタデータ） (2025-12-16T15:11:53Z)
Making Better Mistakes in CLIP-Based Zero-Shot Classification with Hierarchy-Aware Language Prompts [2.967024581564439]
私たちはCLIPベースのゼロショット分類において、より良い誤りを犯すことを紹介します。提案手法は, 5つのデータセットの総合的な比較において, 関連手法よりも優れている。
論文参考訳（メタデータ） (2025-03-04T03:54:50Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
Interpreting and Analyzing CLIP's Zero-Shot Image Classification via Mutual Knowledge [20.09852220432504]
Contrastive Language-Image Pretraining (CLIP)は画像とテキストのクラス表現を共有埋め込み空間にマッピングすることでゼロショット画像分類を行う。この研究は、2つのモード間の相互知識のレンズから、画像分類のためのCLIPモデルを解釈するための新しいアプローチを提供する。
論文参考訳（メタデータ） (2024-10-16T20:18:21Z)
Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文参考訳（メタデータ） (2024-09-15T13:02:14Z)
FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos [19.08882495584709]
セマンティックな特性を損なうことなく,CLIPの細粒度・統語能力を高めることが可能であることを示す。私たちは、高品質で包括的で比較的小さなデータセットにCLIPを効率的に適用します。我々は、細部指向のセマンティック理解を保った強力な視覚表現であるファイングラインドCLIP(FiGCLIP)を学習する。
論文参考訳（メタデータ） (2024-01-15T13:27:34Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文参考訳（メタデータ） (2022-07-25T17:58:16Z)
CLIP-Art: Contrastive Pre-training for Fine-Grained Art Classification [7.6146285961466]
私たちは、CLIP(Contrastive Language- Image Pre-Training)を使用して、さまざまなアートイメージとテキスト記述ペアでニューラルネットワークをトレーニングする最初の方法の1つです。本手法は,インスタンス検索と細粒度アートワーク属性認識という2つの課題を解決することを目的としている。このベンチマークでは、自己スーパービジョンのみを使用して、競争結果を達成しました。
論文参考訳（メタデータ） (2022-04-29T17:17:24Z)
No Token Left Behind: Explainability-Aided Image Classification and Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文参考訳（メタデータ） (2022-04-11T07:16:39Z)
CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文参考訳（メタデータ） (2022-03-14T15:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。