論文の概要: CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection
- arxiv url: http://arxiv.org/abs/2410.05804v3
- Date: Mon, 31 Mar 2025 15:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:29:40.053427
- Title: CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection
- Title(参考訳): CASA:高能率インクリメンタル物体検出のための視覚言語モデルにおけるクラス非依存的共有属性
- Authors: Mingyi Guo, Yuyang Liu, Zhiyuan Yan, Zongying Lin, Peixi Peng, Yonghong Tian,
- Abstract要約: Class-Agnostic Shared Attribute Baseは、インクリメンタルクラス間で共有されるカテゴリに依存しない属性を学ぶことをモデルに推奨する。
その後のタスクでは、保持された属性は凍結され、残りの候補から新しい属性が選択される。
COCOデータセットの実験により,本手法の最先端性能が実証された。
- 参考スコア(独自算出の注目度): 30.286598189230396
- License:
- Abstract: Incremental object detection is fundamentally challenged by catastrophic forgetting. A major factor contributing to this issue is background shift, where background categories in sequential tasks may overlap with either previously learned or future unseen classes. To address this, we propose a novel method called Class-Agnostic Shared Attribute Base (CASA) that encourages the model to learn category-agnostic attributes shared across incremental classes. Our approach leverages an LLM to generate candidate textual attributes, selects the most relevant ones based on the current training data, and records their importance in an assignment matrix. For subsequent tasks, the retained attributes are frozen, and new attributes are selected from the remaining candidates, ensuring both knowledge retention and adaptability. Extensive experiments on the COCO dataset demonstrate the state-of-the-art performance of our method.
- Abstract(参考訳): インクリメンタルな物体検出は、破滅的な忘れ物によって根本的に挑戦される。
この問題に寄与する主な要因はバックグラウンドシフトであり、シーケンシャルなタスクにおけるバックグラウンドカテゴリは、以前に学習されたクラスと将来の未確認クラスのいずれかと重複する可能性がある。
そこで本研究では,CASA(Class-Agnostic Shared Attribute Base)と呼ばれる新たな手法を提案する。
提案手法では,LLMを利用してテキスト属性の候補を生成し,現在のトレーニングデータに基づいて関連性の高い属性を選択し,その重要性を代入行列に記録する。
その後のタスクでは、保持された属性は凍結され、残りの候補から新しい属性が選択され、知識の保持と適応性の両方が保証される。
COCOデータセットの大規模な実験により,本手法の最先端性能が実証された。
関連論文リスト
- Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition [1.2499537119440243]
本稿では,視覚言語モデル(VLM)がオブジェクトのクラス名を除いた記述的属性のみに基づいてオブジェクトを分類する能力を評価する新しいタスクである記述によるゼロショットの「リアル」分類に取り組む。
我々は、オブジェクト名を省略し、真にゼロショット学習を促進する6つの人気のあるきめ細かいベンチマークに関する記述データをリリースする。
修正されたCLIPアーキテクチャを導入し、複数の解像度を活用し、きめ細かい部分属性の検出を改善する。
論文 参考訳(メタデータ) (2024-12-18T15:28:08Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Leveraging Vision-Language Foundation Models for Fine-Grained Downstream
Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。
本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:05:34Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Efficient Attribute Injection for Pretrained Language Models [20.39972635495006]
事前学習言語モデル(PLM)に属性を注入する軽量でメモリ効率のよい手法を提案する。
属性語彙が大きければ特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用いる。
提案手法は, 従来の属性注入法より優れ, 各種データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-16T13:08:24Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。