論文の概要: CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection
- arxiv url: http://arxiv.org/abs/2410.05804v3
- Date: Mon, 31 Mar 2025 15:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.690302
- Title: CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection
- Title(参考訳): CASA:高能率インクリメンタル物体検出のための視覚言語モデルにおけるクラス非依存的共有属性
- Authors: Mingyi Guo, Yuyang Liu, Zhiyuan Yan, Zongying Lin, Peixi Peng, Yonghong Tian,
- Abstract要約: Class-Agnostic Shared Attribute Baseは、インクリメンタルクラス間で共有されるカテゴリに依存しない属性を学ぶことをモデルに推奨する。
その後のタスクでは、保持された属性は凍結され、残りの候補から新しい属性が選択される。
COCOデータセットの実験により,本手法の最先端性能が実証された。
- 参考スコア(独自算出の注目度): 30.286598189230396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incremental object detection is fundamentally challenged by catastrophic forgetting. A major factor contributing to this issue is background shift, where background categories in sequential tasks may overlap with either previously learned or future unseen classes. To address this, we propose a novel method called Class-Agnostic Shared Attribute Base (CASA) that encourages the model to learn category-agnostic attributes shared across incremental classes. Our approach leverages an LLM to generate candidate textual attributes, selects the most relevant ones based on the current training data, and records their importance in an assignment matrix. For subsequent tasks, the retained attributes are frozen, and new attributes are selected from the remaining candidates, ensuring both knowledge retention and adaptability. Extensive experiments on the COCO dataset demonstrate the state-of-the-art performance of our method.
- Abstract(参考訳): インクリメンタルな物体検出は、破滅的な忘れ物によって根本的に挑戦される。
この問題に寄与する主な要因はバックグラウンドシフトであり、シーケンシャルなタスクにおけるバックグラウンドカテゴリは、以前に学習されたクラスと将来の未確認クラスのいずれかと重複する可能性がある。
そこで本研究では,CASA(Class-Agnostic Shared Attribute Base)と呼ばれる新たな手法を提案する。
提案手法では,LLMを利用してテキスト属性の候補を生成し,現在のトレーニングデータに基づいて関連性の高い属性を選択し,その重要性を代入行列に記録する。
その後のタスクでは、保持された属性は凍結され、残りの候補から新しい属性が選択され、知識の保持と適応性の両方が保証される。
COCOデータセットの大規模な実験により,本手法の最先端性能が実証された。
関連論文リスト
- Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition [1.2499537119440243]
本稿では,視覚言語モデル(VLM)がオブジェクトのクラス名を除いた記述的属性のみに基づいてオブジェクトを分類する能力を評価する新しいタスクである記述によるゼロショットの「リアル」分類に取り組む。
我々は、オブジェクト名を省略し、真にゼロショット学習を促進する6つの人気のあるきめ細かいベンチマークに関する記述データをリリースする。
修正されたCLIPアーキテクチャを導入し、複数の解像度を活用し、きめ細かい部分属性の検出を改善する。
論文 参考訳(メタデータ) (2024-12-18T15:28:08Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Learning Concise and Descriptive Attributes for Visual Recognition [25.142065847381758]
数千の属性をクエリすることで、画像機能と競合するパフォーマンスが得られることを示す。
そこで本研究では,これらの属性の簡潔な集合を見つけるための新しい学習・探索手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T16:00:22Z) - UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with
Vision-Language Models [24.50445616970387]
我々は、データ事前選択に視覚言語モデルを適用する、シンプルで効果的な教師なしのプロンプト学習手法UP-DPを導入する。
具体的には,BLIP-2パラメータを凍結することにより,テキストプロンプトをトレーニングして,表現性の向上による関節特徴の抽出を行う。
提案手法を,異なる設定の7つのベンチマークデータセットを用いて,最先端の手法と比較し,最大20%の性能向上を実現した。
論文 参考訳(メタデータ) (2023-07-20T20:45:13Z) - Leveraging Vision-Language Foundation Models for Fine-Grained Downstream
Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。
本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:05:34Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Incremental Few-Shot Semantic Segmentation via Embedding Adaptive-Update
and Hyper-class Representation [30.558312809285905]
EHNetは、目覚ましいアドバンテージで、最先端の新たなパフォーマンスを実現している。
PASCAL-5iとCOCOデータセットの実験により、EHNetは、目覚ましいアドバンテージで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-07-26T15:20:07Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel
Attribute Synthesis [65.74825840440504]
我々は,ZSLA(Zero Shot Learning for Attributes)を提案する。
提案手法は,新しい属性の検出器をゼロショット学習方式で合成することができる。
提案手法は,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,他の207個の新しい属性を合成することができる。
論文 参考訳(メタデータ) (2021-11-28T15:45:54Z) - Efficient Attribute Injection for Pretrained Language Models [20.39972635495006]
事前学習言語モデル(PLM)に属性を注入する軽量でメモリ効率のよい手法を提案する。
属性語彙が大きければ特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用いる。
提案手法は, 従来の属性注入法より優れ, 各種データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-16T13:08:24Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。