論文の概要: Anticipating Future Object Compositions without Forgetting
- arxiv url: http://arxiv.org/abs/2407.10723v1
- Date: Mon, 15 Jul 2024 13:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:01:44.795935
- Title: Anticipating Future Object Compositions without Forgetting
- Title(参考訳): 予測せずに将来のオブジェクト構成を予想する
- Authors: Youssef Zahran, Gertjan Burghouts, Yke Bauke Eisma,
- Abstract要約: 本稿では,従来の知識を忘れることなく,オブジェクト検出における合成ゼロショット学習(CZSL)を強化することを目的とする。
我々は、Grounding DINOを使用し、コンポジション型ソフト・プロンプティング(CSP)を組み込んで、コンポジション型予測で拡張する。
本手法の有効性を実証し, プレトレイン, インクリメント, 不可視集合におけるHMの14.5%の増加を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant advancements in computer vision models, their ability to generalize to novel object-attribute compositions remains limited. Existing methods for Compositional Zero-Shot Learning (CZSL) mainly focus on image classification. This paper aims to enhance CZSL in object detection without forgetting prior learned knowledge. We use Grounding DINO and incorporate Compositional Soft Prompting (CSP) into it and extend it with Compositional Anticipation. We achieve a 70.5% improvement over CSP on the harmonic mean (HM) between seen and unseen compositions on the CLEVR dataset. Furthermore, we introduce Contrastive Prompt Tuning to incrementally address model confusion between similar compositions. We demonstrate the effectiveness of this method and achieve an increase of 14.5% in HM across the pretrain, increment, and unseen sets. Collectively, these methods provide a framework for learning various compositions with limited data, as well as improving the performance of underperforming compositions when additional data becomes available.
- Abstract(参考訳): コンピュータビジョンモデルの大幅な進歩にもかかわらず、新しいオブジェクト属性合成に一般化する能力は依然として限られている。
合成ゼロショット学習(CZSL)の既存の手法は主に画像分類に焦点を当てている。
本稿では,従来の知識を忘れることなく,物体検出におけるCZSLの向上を目指す。
我々は、Grounding DINOを使用し、コンポジション型ソフト・プロンプティング(CSP)を組み込んで、コンポジション型予測で拡張する。
我々は、CLEVRデータセット上の見かけと見えない合成の調和平均(HM)に対して、CSPよりも70.5%改善した。
さらに、類似した構成間のモデル混乱に漸進的に対処するために、Contrastive Prompt Tuningを導入する。
本手法の有効性を実証し, プレトレイン, インクリメント, 不可視集合におけるHMの14.5%の増加を実現する。
これらの手法は、限られたデータで様々な構成を学習するためのフレームワークを提供するとともに、追加データが利用可能になったときの過度な構成の性能を向上させる。
関連論文リスト
- Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - Contextual Interaction via Primitive-based Adversarial Training For Compositional Zero-shot Learning [23.757252768668497]
合成ゼロショット学習(CZSL)は、既知の属性オブジェクト対を通じて新規な合成を識別することを目的としている。
CZSLタスクの最大の課題は、属性とオブジェクトの視覚的プリミティブの間の複雑な相互作用によって導入された大きな相違にある。
本稿では,モデルに依存しない原始的適応学習(PBadv)手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:18:30Z) - CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot
Learning [62.090051975043544]
属性とオブジェクト(A-O)の絡み合いは、合成ゼロショット学習(CZSL)の基本的かつ重要な問題である
CZSL(Class-specified Cascaded Network, CSCNet)のための新しいA-O不整合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T14:18:41Z) - HOMOE: A Memory-Based and Composition-Aware Framework for Zero-Shot
Learning with Hopfield Network and Soft Mixture of Experts [25.930021907054797]
そこで本稿では,現代ホップフィールドネットワークとエキスパートの混合を併用した新しいフレームワークを提案し,これまでに見つからなかったオブジェクトの合成を分類する。
提案手法は,MIT-StatesやUT-Zapposなど,いくつかのベンチマークにおいてSOTA性能を実現する。
論文 参考訳(メタデータ) (2023-11-23T07:32:20Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Reference-Limited Compositional Zero-Shot Learning [19.10692212692771]
合成ゼロショット学習(CZSL)は、既知の視覚的プリミティブの未知の合成を認識することを指す。
本稿では,メタコンポジショングラフ学習システム(MetaCGL)を提案する。
論文 参考訳(メタデータ) (2022-08-22T03:58:02Z) - KG-SP: Knowledge Guided Simple Primitives for Open World Compositional
Zero-Shot Learning [52.422873819371276]
オープンワールドコンポジションゼロショット学習(OW-CZSL)の目的は、画像中の状態とオブジェクトの合成を認識することである。
ここでは、単純なCZSLベースラインを再検討し、プリミティブ、すなわち状態とオブジェクトを独立して予測する。
出力空間から不可能な構成を除去するために, 外部知識を用いて各構成の有効性を推定する。
我々のモデルであるKG-SPはOW-CZSLとpCZSLの両方で技術の状態を達成する。
論文 参考訳(メタデータ) (2022-05-13T17:18:15Z) - CLAWS: Contrastive Learning with hard Attention and Weak Supervision [1.1619569706231647]
本稿では,大規模農業データセットを手動でラベル付けする問題に対処する,アノテーション効率のよい学習フレームワークであるCLAWSを提案する。
CLAWSは、SimCLRにインスパイアされたネットワークバックボーンを使用して、クラスクラスタ内のコントラスト学習の影響を調べる。
本研究は,11種類の作物群からなる227,060検体を用いて,教師付きSimCLRとCLAWSの比較を行った。
論文 参考訳(メタデータ) (2021-12-01T21:45:58Z) - Learning the Compositional Visual Coherence for Complementary
Recommendations [62.60648815930101]
補完的なレコメンデーションは、ユーザーが獲得したアイテムと補完的で互換性のある製品提案を提供することを目的としている。
本研究では,グローバルコンテンツとセマンティックコンテンツの両方に包括的コンポジションコヒーレンスをモデル化する新しいコンテント注意ニューラルネットワーク(CANN)を提案する。
論文 参考訳(メタデータ) (2020-06-08T06:57:18Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。