論文の概要: CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection
- arxiv url: http://arxiv.org/abs/2410.05804v2
- Date: Fri, 11 Oct 2024 08:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 12:39:56.712054
- Title: CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection
- Title(参考訳): CASA:高能率インクリメンタル物体検出のための視覚言語モデルにおけるクラス非依存的共有属性
- Authors: Mingyi Guo, Yuyang Liu, Zongying Lin, Peixi Peng, Yonghong Tian,
- Abstract要約: 本稿では,視覚言語基礎モデルの属性をインクリメンタルオブジェクト検出に活用する手法を提案する。
本手法は,クラス非依存の共有属性ベース(CASA)を構築し,インクリメンタルクラス間の共通意味情報をキャプチャする。
提案手法はパラメータ効率の微調整によりパラメータ記憶に0.7%しか加えず,拡張性と適応性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 30.46562066023117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incremental object detection (IOD) is challenged by background shift, where background categories in sequential data may include previously learned or future classes. Inspired by the vision-language foundation models such as CLIP, these models capture shared attributes from extensive image-text paired data during pre-training. We propose a novel method utilizing attributes in vision-language foundation models for incremental object detection. Our method constructs a Class-Agnostic Shared Attribute base (CASA) to capture common semantic information among incremental classes. Specifically, we utilize large language models to generate candidate textual attributes and select the most relevant ones based on current training data, recording their significance in an attribute assignment matrix. For subsequent tasks, we freeze the retained attributes and continue selecting from the remaining candidates while updating the attribute assignment matrix accordingly. Furthermore, we employ OWL-ViT as our baseline, preserving the original parameters of the pre-trained foundation model. Our method adds only 0.7% to parameter storage through parameter-efficient fine-tuning to significantly enhance the scalability and adaptability of IOD. Extensive two-phase and multi-phase experiments on the COCO dataset demonstrate the state-of-the-art performance of our proposed method.
- Abstract(参考訳): インクリメンタルオブジェクト検出(IOD)は、シーケンシャルデータにおけるバックグラウンドカテゴリが以前学習されたクラスや将来のクラスを含む場合、バックグラウンドシフトによって問題となる。
CLIPのようなビジョン言語基盤モデルにインスパイアされたこれらのモデルは、事前トレーニング中に広範な画像とテキストのペアデータから共有属性をキャプチャする。
本稿では,視覚言語基礎モデルの属性をインクリメンタルオブジェクト検出に活用する手法を提案する。
本手法は,クラス非依存の共有属性ベース(CASA)を構築し,インクリメンタルクラス間の共通意味情報をキャプチャする。
具体的には、大規模言語モデルを用いて、候補となるテキスト属性を生成し、現在のトレーニングデータに基づいて最も関連性の高い属性を選択し、それらの意味を属性割り当て行列に記録する。
その後のタスクでは、保持された属性を凍結し、残りの候補を引き続き選択し、属性割り当て行列を更新する。
さらに, OWL-ViTをベースラインとして, 事前学習した基礎モデルのパラメータを保存する。
IODのスケーラビリティと適応性を大幅に向上させるため,パラメータ効率の微調整によりパラメータ記憶に0.7%しか加えていない。
COCOデータセット上での2相および多相の大規模実験により,提案手法の最先端性能が実証された。
関連論文リスト
- Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition [1.2499537119440243]
本稿では,視覚言語モデル(VLM)がオブジェクトのクラス名を除いた記述的属性のみに基づいてオブジェクトを分類する能力を評価する新しいタスクである記述によるゼロショットの「リアル」分類に取り組む。
我々は、オブジェクト名を省略し、真にゼロショット学習を促進する6つの人気のあるきめ細かいベンチマークに関する記述データをリリースする。
修正されたCLIPアーキテクチャを導入し、複数の解像度を活用し、きめ細かい部分属性の検出を改善する。
論文 参考訳(メタデータ) (2024-12-18T15:28:08Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Learning Concise and Descriptive Attributes for Visual Recognition [25.142065847381758]
数千の属性をクエリすることで、画像機能と競合するパフォーマンスが得られることを示す。
そこで本研究では,これらの属性の簡潔な集合を見つけるための新しい学習・探索手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T16:00:22Z) - UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with
Vision-Language Models [24.50445616970387]
我々は、データ事前選択に視覚言語モデルを適用する、シンプルで効果的な教師なしのプロンプト学習手法UP-DPを導入する。
具体的には,BLIP-2パラメータを凍結することにより,テキストプロンプトをトレーニングして,表現性の向上による関節特徴の抽出を行う。
提案手法を,異なる設定の7つのベンチマークデータセットを用いて,最先端の手法と比較し,最大20%の性能向上を実現した。
論文 参考訳(メタデータ) (2023-07-20T20:45:13Z) - Leveraging Vision-Language Foundation Models for Fine-Grained Downstream
Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。
本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:05:34Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Incremental Few-Shot Semantic Segmentation via Embedding Adaptive-Update
and Hyper-class Representation [30.558312809285905]
EHNetは、目覚ましいアドバンテージで、最先端の新たなパフォーマンスを実現している。
PASCAL-5iとCOCOデータセットの実験により、EHNetは、目覚ましいアドバンテージで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-07-26T15:20:07Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel
Attribute Synthesis [65.74825840440504]
我々は,ZSLA(Zero Shot Learning for Attributes)を提案する。
提案手法は,新しい属性の検出器をゼロショット学習方式で合成することができる。
提案手法は,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,他の207個の新しい属性を合成することができる。
論文 参考訳(メタデータ) (2021-11-28T15:45:54Z) - Efficient Attribute Injection for Pretrained Language Models [20.39972635495006]
事前学習言語モデル(PLM)に属性を注入する軽量でメモリ効率のよい手法を提案する。
属性語彙が大きければ特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用いる。
提案手法は, 従来の属性注入法より優れ, 各種データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-16T13:08:24Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。