Fugu-MT 論文翻訳(概要): Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions

論文の概要: Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions

arxiv url: http://arxiv.org/abs/2407.16725v1
Date: Tue, 23 Jul 2024 12:53:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 15:54:04.461890
Title: Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions
Title（参考訳）: 階層的文脈記述によるカテゴリー拡張型アウト・オブ・ディストリビューション検出
Authors: Kai Liu, Zhihang Fu, Chao Chen, Sheng Jin, Ze Chen, Mingyuan Tao, Rongxin Jiang, Jieping Ye,
Abstract要約: この研究は2つの階層的文脈、すなわち知覚的文脈と刺激的文脈を導入し、正確な圏境界を注意深く記述する。 2つの文脈は、あるカテゴリの正確な記述を階層的に構成するが、これはまず、予測されたカテゴリにサンプルを大まかに分類する。 CATegory-Extensible OOD Detection (CATEX)
参考スコア（独自算出の注目度）: 35.20091752343433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The key to OOD detection has two aspects: generalized feature representation and precise category description. Recently, vision-language models such as CLIP provide significant advances in both two issues, but constructing precise category descriptions is still in its infancy due to the absence of unseen categories. This work introduces two hierarchical contexts, namely perceptual context and spurious context, to carefully describe the precise category boundary through automatic prompt tuning. Specifically, perceptual contexts perceive the inter-category difference (e.g., cats vs apples) for current classification tasks, while spurious contexts further identify spurious (similar but exactly not) OOD samples for every single category (e.g., cats vs panthers, apples vs peaches). The two contexts hierarchically construct the precise description for a certain category, which is, first roughly classifying a sample to the predicted category and then delicately identifying whether it is truly an ID sample or actually OOD. Moreover, the precise descriptions for those categories within the vision-language framework present a novel application: CATegory-EXtensible OOD detection (CATEX). One can efficiently extend the set of recognizable categories by simply merging the hierarchical contexts learned under different sub-task settings. And extensive experiments are conducted to demonstrate CATEX's effectiveness, robustness, and category-extensibility. For instance, CATEX consistently surpasses the rivals by a large margin with several protocols on the challenging ImageNet-1K dataset. In addition, we offer new insights on how to efficiently scale up the prompt engineering in vision-language models to recognize thousands of object categories, as well as how to incorporate large language models (like GPT-3) to boost zero-shot applications. Code will be made public soon.
Abstract（参考訳）: OOD検出の鍵となるのは、一般化された特徴表現と正確なカテゴリ記述の2つの側面である。近年,CLIPのような視覚言語モデルが両問題に大きく進展しているが,未確認のカテゴリが存在しないため,正確なカテゴリ記述の構築はまだ初期段階にある。この研究は、2つの階層的コンテキスト、すなわち知覚的コンテキストと刺激的コンテキストを導入し、自動的なプロンプトチューニングによって正確なカテゴリ境界を注意深く記述する。特に、知覚的文脈は、現在の分類作業におけるカテゴリー間差異(例えば、猫とリンゴ)を知覚する一方で、刺激的な文脈は、すべてのカテゴリ(例えば、猫対パンサー、リンゴ対桃)の刺激的なOODサンプルをさらに識別する。 2つの文脈は、あるカテゴリの正確な記述を階層的に構築するが、これは、まず、標本を予測されたカテゴリに大まかに分類し、それが真のIDサンプルであるか、それとも実際にOODであるかを微妙に識別する。さらに、視覚言語フレームワーク内のこれらのカテゴリの正確な記述には、CATegory-Extensible OOD Detection (CATEX)という新しい応用法が提示されている。異なるサブタスク設定下で学習した階層的コンテキストをマージするだけで、認識可能なカテゴリの集合を効率的に拡張することができる。そして、CATEXの有効性、堅牢性、およびカテゴリ拡張性を実証するための広範な実験を行った。例えば、CATEXは、挑戦的なImageNet-1Kデータセットに関するいくつかのプロトコルで、ライバルをはるかに上回っている。さらに、視覚言語モデルの迅速なエンジニアリングを効率的にスケールアップし、数千のオブジェクトカテゴリを認識する方法や、ゼロショットアプリケーションを強化するために大規模な言語モデル(GPT-3など)を組み込む方法について、新たな洞察を提供する。コードはまもなく公開されます。

関連論文リスト

Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval [23.472806734625774]
画像テキストの正確なマッチングを実現するために,DCAR(Joint Category-Attribute Reweighting)を用いたデュアルプロンプト学習を提案する。プロンプトパラダイムに基づいて、DCARは属性とクラスの特徴を協調的に最適化し、きめ細かい表現学習を強化する。
論文参考訳（メタデータ） (2025-08-06T02:44:08Z)
AlignCAT: Visual-Linguistic Alignment of Category and Attributefor Weakly Supervised Visual Grounding [51.74170851840497]
弱教師付きビジュアルグラウンドティングは、テキスト記述に基づいて画像中のオブジェクトを見つけることを目的としている。既存の手法では、テキスト表現の微妙な意味的差異を区別するために、強力なクロスモーダル推論が欠如している。本稿では、弱教師付きVGのための新しいクエリベースのセマンティックマッチングフレームワークAlignCATを紹介する。
論文参考訳（メタデータ） (2025-08-05T08:16:35Z)
SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文参考訳（メタデータ） (2025-04-24T09:31:08Z)
Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。 OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文参考訳（メタデータ） (2024-12-09T04:00:18Z)
Label-Guided Prompt for Multi-label Few-shot Aspect Category Detection [12.094529796168384]
文やカテゴリの表現は、このタスクにおいて重要な問題である。文やカテゴリを表現するためのラベル誘導プロンプト手法を提案する。マクロF1スコアは3.86%～4.75%向上した。
論文参考訳（メタデータ） (2024-07-30T09:11:17Z)
AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文参考訳（メタデータ） (2023-08-31T19:34:09Z)
Semantic Guided Level-Category Hybrid Prediction Network for Hierarchical Image Classification [8.456482280676884]
階層分類(HC)は、各オブジェクトに階層構造にまとめられた複数のラベルを割り当てる。本稿では,そのレベルとカテゴリの予測をエンドツーエンドで共同で行うことのできる,セマンティックガイド付き階層型ハイブリッド予測ネットワーク(SGLCHPN)を提案する。
論文参考訳（メタデータ） (2022-11-22T13:49:10Z)
Comparison Knowledge Translation for Generalizable Image Classification [31.530232003512957]
画像分類タスクにおいて,人間の認識機構をエミュレートする一般化可能なフレームワークを構築した。本稿では,比較分類器とマッチング判別器を組み合わせた比較分類翻訳ネットワーク(CCT-Net)を提案する。 CCT-Netは、未確認カテゴリにおける驚くほどの一般化能力と、対象カテゴリにおけるSOTA性能を実現する。
論文参考訳（メタデータ） (2022-05-07T11:05:18Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
Out-of-Category Document Identification Using Target-Category Names as Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文参考訳（メタデータ） (2021-11-24T21:01:25Z)
Category Contrast for Unsupervised Domain Adaptation in Visual Tasks [92.9990560760593]
本稿では,視覚的 UDA タスクのインスタンス識別に先立って,セマンティックな事前情報を導入した新しいカテゴリコントラスト手法(CaCo)を提案する。 CaCoは既存のUDAメソッドを補完し、半教師付き学習や教師なしモデル適応などの他の学習設定に一般化可能である。
論文参考訳（メタデータ） (2021-06-05T12:51:35Z)
Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-06T04:22:29Z)
DeepCAT: Deep Category Representation for Query Understanding in E-commerce Search [15.041444067591007]
本稿では,問合せ理解のプロセスを強化するために,共同語分類表現を学習する深層学習モデルDeepCATを提案する。その結果,emマイノリティクラスではdeepcatが10%改善され,最先端ラベル埋め込みモデルではemtailクエリが7.1%向上した。
論文参考訳（メタデータ） (2021-04-23T18:04:44Z)
Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文参考訳（メタデータ） (2020-09-12T17:36:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。