論文の概要: Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions
- arxiv url: http://arxiv.org/abs/2407.16725v2
- Date: Thu, 14 Nov 2024 07:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:05.560548
- Title: Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions
- Title(参考訳): 階層的文脈記述によるカテゴリー拡張型アウト・オブ・ディストリビューション検出
- Authors: Kai Liu, Zhihang Fu, Chao Chen, Sheng Jin, Ze Chen, Mingyuan Tao, Rongxin Jiang, Jieping Ye,
- Abstract要約: この研究は2つの階層的文脈、すなわち知覚的文脈と刺激的文脈を導入し、正確な圏境界を注意深く記述する。
2つの文脈は、あるカテゴリの正確な記述を階層的に構成するが、これはまず、予測されたカテゴリにサンプルを大まかに分類する。
CATegory-Extensible OOD Detection (CATEX)
- 参考スコア(独自算出の注目度): 35.20091752343433
- License:
- Abstract: The key to OOD detection has two aspects: generalized feature representation and precise category description. Recently, vision-language models such as CLIP provide significant advances in both two issues, but constructing precise category descriptions is still in its infancy due to the absence of unseen categories. This work introduces two hierarchical contexts, namely perceptual context and spurious context, to carefully describe the precise category boundary through automatic prompt tuning. Specifically, perceptual contexts perceive the inter-category difference (e.g., cats vs apples) for current classification tasks, while spurious contexts further identify spurious (similar but exactly not) OOD samples for every single category (e.g., cats vs panthers, apples vs peaches). The two contexts hierarchically construct the precise description for a certain category, which is, first roughly classifying a sample to the predicted category and then delicately identifying whether it is truly an ID sample or actually OOD. Moreover, the precise descriptions for those categories within the vision-language framework present a novel application: CATegory-EXtensible OOD detection (CATEX). One can efficiently extend the set of recognizable categories by simply merging the hierarchical contexts learned under different sub-task settings. And extensive experiments are conducted to demonstrate CATEX's effectiveness, robustness, and category-extensibility. For instance, CATEX consistently surpasses the rivals by a large margin with several protocols on the challenging ImageNet-1K dataset. In addition, we offer new insights on how to efficiently scale up the prompt engineering in vision-language models to recognize thousands of object categories, as well as how to incorporate large language models (like GPT-3) to boost zero-shot applications. Code is publicly available at https://github.com/alibaba/catex.
- Abstract(参考訳): OOD検出の鍵となるのは、一般化された特徴表現と正確なカテゴリ記述の2つの側面である。
近年,CLIPのような視覚言語モデルが両問題に大きく進展しているが,未確認のカテゴリが存在しないため,正確なカテゴリ記述の構築はまだ初期段階にある。
この研究は、2つの階層的コンテキスト、すなわち知覚的コンテキストと刺激的コンテキストを導入し、自動的なプロンプトチューニングによって正確なカテゴリ境界を注意深く記述する。
特に、知覚的文脈は、現在の分類作業におけるカテゴリー間差異(例えば、猫とリンゴ)を知覚する一方で、刺激的な文脈は、すべてのカテゴリ(例えば、猫対パンサー、リンゴ対桃)の刺激的なOODサンプルをさらに識別する。
2つの文脈は、あるカテゴリの正確な記述を階層的に構築するが、これは、まず、標本を予測されたカテゴリに大まかに分類し、それが真のIDサンプルであるか、それとも実際にOODであるかを微妙に識別する。
さらに、視覚言語フレームワーク内のこれらのカテゴリの正確な記述には、CATegory-Extensible OOD Detection (CATEX)という新しい応用法が提示されている。
異なるサブタスク設定下で学習した階層的コンテキストをマージするだけで、認識可能なカテゴリの集合を効率的に拡張することができる。
そして、CATEXの有効性、堅牢性、およびカテゴリ拡張性を実証するための広範な実験を行った。
例えば、CATEXは、挑戦的なImageNet-1Kデータセットに関するいくつかのプロトコルで、ライバルをはるかに上回っている。
さらに、視覚言語モデルの迅速なエンジニアリングを効率的にスケールアップし、数千のオブジェクトカテゴリを認識する方法や、ゼロショットアプリケーションを強化するために大規模な言語モデル(GPT-3など)を組み込む方法について、新たな洞察を提供する。
コードはhttps://github.com/alibaba/catex.comで公開されている。
関連論文リスト
- Label-Guided Prompt for Multi-label Few-shot Aspect Category Detection [12.094529796168384]
文やカテゴリの表現は、このタスクにおいて重要な問題である。
文やカテゴリを表現するためのラベル誘導プロンプト手法を提案する。
マクロF1スコアは3.86%~4.75%向上した。
論文 参考訳(メタデータ) (2024-07-30T09:11:17Z) - AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:34:09Z) - Semantic Guided Level-Category Hybrid Prediction Network for
Hierarchical Image Classification [8.456482280676884]
階層分類(HC)は、各オブジェクトに階層構造にまとめられた複数のラベルを割り当てる。
本稿では,そのレベルとカテゴリの予測をエンドツーエンドで共同で行うことのできる,セマンティックガイド付き階層型ハイブリッド予測ネットワーク(SGLCHPN)を提案する。
論文 参考訳(メタデータ) (2022-11-22T13:49:10Z) - Comparison Knowledge Translation for Generalizable Image Classification [31.530232003512957]
画像分類タスクにおいて,人間の認識機構をエミュレートする一般化可能なフレームワークを構築した。
本稿では,比較分類器とマッチング判別器を組み合わせた比較分類翻訳ネットワーク(CCT-Net)を提案する。
CCT-Netは、未確認カテゴリにおける驚くほどの一般化能力と、対象カテゴリにおけるSOTA性能を実現する。
論文 参考訳(メタデータ) (2022-05-07T11:05:18Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Visual Boundary Knowledge Translation for Foreground Segmentation [57.32522585756404]
視覚境界知識を明示的に考慮したモデルの構築を試みており、未確認カテゴリのセグメンテーションにおけるトレーニングの労力を減らそうとしている。
数十のラベル付きサンプルをガイダンスとして使うだけで、Trans-Netは完全な教師付きメソッドと同等のクローズな結果が得られる。
論文 参考訳(メタデータ) (2021-08-01T07:10:25Z) - Category Contrast for Unsupervised Domain Adaptation in Visual Tasks [92.9990560760593]
本稿では,視覚的 UDA タスクのインスタンス識別に先立って,セマンティックな事前情報を導入した新しいカテゴリコントラスト手法(CaCo)を提案する。
CaCoは既存のUDAメソッドを補完し、半教師付き学習や教師なしモデル適応などの他の学習設定に一般化可能である。
論文 参考訳(メタデータ) (2021-06-05T12:51:35Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z) - DeepCAT: Deep Category Representation for Query Understanding in
E-commerce Search [15.041444067591007]
本稿では,問合せ理解のプロセスを強化するために,共同語分類表現を学習する深層学習モデルDeepCATを提案する。
その結果,emマイノリティクラスではdeepcatが10%改善され,最先端ラベル埋め込みモデルではemtailクエリが7.1%向上した。
論文 参考訳(メタデータ) (2021-04-23T18:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。