論文の概要: Open Ad-hoc Categorization with Contextualized Feature Learning
- arxiv url: http://arxiv.org/abs/2512.16202v1
- Date: Thu, 18 Dec 2025 05:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.933486
- Title: Open Ad-hoc Categorization with Contextualized Feature Learning
- Title(参考訳): 文脈型特徴学習を用いたオープンアドホック分類
- Authors: Zilin Wang, Sangwoo Mo, Stella X. Yu, Sima Behpour, Liu Ren,
- Abstract要約: オープンなアドホック分類について研究する:いくつかのラベル付き例と豊富なラベルなしデータを考えると、その目標は、基礎となるコンテキストを見つけることである。
凍結したCLIPの入力時に学習可能なコンテキストトークンの小さなセットを導入するモデルであるOAKを提案する。
OAKは、スタンフォード・ムードの87.4%の新しい精度を含む、複数のカテゴリにわたる精度と概念発見の最先端を達成している。
- 参考スコア(独自算出の注目度): 46.74723755596455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive categorization of visual scenes is essential for AI agents to handle changing tasks. Unlike fixed common categories for plants or animals, ad-hoc categories are created dynamically to serve specific goals. We study open ad-hoc categorization: Given a few labeled exemplars and abundant unlabeled data, the goal is to discover the underlying context and to expand ad-hoc categories through semantic extension and visual clustering around it. Building on the insight that ad-hoc and common categories rely on similar perceptual mechanisms, we propose OAK, a simple model that introduces a small set of learnable context tokens at the input of a frozen CLIP and optimizes with both CLIP's image-text alignment objective and GCD's visual clustering objective. On Stanford and Clevr-4 datasets, OAK achieves state-of-the-art in accuracy and concept discovery across multiple categorizations, including 87.4% novel accuracy on Stanford Mood, surpassing CLIP and GCD by over 50%. Moreover, OAK produces interpretable saliency maps, focusing on hands for Action, faces for Mood, and backgrounds for Location, promoting transparency and trust while enabling adaptive and generalizable categorization.
- Abstract(参考訳): 視覚シーンの適応的な分類は、AIエージェントがタスクの変更を扱うために不可欠である。
植物や動物の固定された共通カテゴリーとは異なり、アドホックカテゴリーは特定の目的を達成するために動的に作成される。
我々はオープンなアドホック分類について研究する:いくつかのラベル付き例と豊富なラベル付きデータを考えると、基礎となるコンテキストを発見し、セマンティックな拡張と視覚的クラスタリングを通じてアドホックカテゴリを拡張することが目的である。
OAKは、凍結したCLIPの入力時に学習可能なコンテキストトークンの小さなセットを導入し、CLIPの画像テキストアライメント目的とGCDの視覚的クラスタリング目的の両方で最適化する単純なモデルである。
スタンフォードとClevr-4のデータセットでは、OAKは複数のカテゴリにまたがる精度と概念発見の最先端を達成しており、その中にはStanford Moodで87.4%の新しい精度が含まれており、CLIPとGCDを50%以上上回っている。
さらに、OAKは解釈可能なサリエンシマップを作成し、アクションのための手、ムードのための顔、ロケーションの背景に焦点を当て、適応的で一般化可能な分類を可能にしながら透明性と信頼を促進する。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning [46.25534556546322]
そこで本稿では,イメージ・アンカー関係から画像・ターゲット関係に遷移して予測を行うアンカーとしてオープンセマンティクスを抽出することを提案する。
本手法は, 数ショットの分類設定を考慮し, 従来の最先端技術に対して良好に機能する。
論文 参考訳(メタデータ) (2024-06-17T06:28:58Z) - Dual-Modal Prompting for Sketch-Based Image Retrieval [76.12076969949062]
本稿では、適応的なプロンプト戦略を設計したデュアルモーダルCLIP(DP-CLIP)ネットワークを提案する。
ターゲットカテゴリとテキストカテゴリラベル内に一連の画像を用いて,カテゴリ適応型プロンプトトークンとチャネルスケールをそれぞれ構成する。
我々のDP-CLIPは、Sketchyデータセット上のAcc.@1において、最先端の微細ゼロショット法を7.3%向上させる。
論文 参考訳(メタデータ) (2024-04-29T13:43:49Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery [65.16724941038052]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。