論文の概要: Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection
- arxiv url: http://arxiv.org/abs/2403.01680v3
- Date: Wed, 16 Oct 2024 01:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:38:54.382361
- Title: Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection
- Title(参考訳): 視覚言語オブジェクト検出のためのゼロショット一般化型インクリメンタル学習
- Authors: Jieren Deng, Haojian Zhang, Kun Ding, Jianhua Hu, Xingxuan Zhang, Yunkuan Wang,
- Abstract要約: Incrmental Vision-Language Object Detection (IVLOD) は、訓練済みのVLODMを様々な専門分野に段階的に適応させる新しい学習タスクである。
新たな手法であるZiRaを提案する。ZiRaは、新たな推論コストやメモリ使用量の増加を伴わずに、IVLODに対処するためのゼロ干渉損失とreパラメタライゼーション技術を導入する。
ODinW-13データセットのトレーニングの後、ZiRaはCL-DETRとiDETRよりも優れた性能を示し、それぞれ13.91 APと8.74 APでゼロショットの一般化性を高めた。
- 参考スコア(独自算出の注目度): 11.388016696147567
- License:
- Abstract: This paper presents Incremental Vision-Language Object Detection (IVLOD), a novel learning task designed to incrementally adapt pre-trained Vision-Language Object Detection Models (VLODMs) to various specialized domains, while simultaneously preserving their zero-shot generalization capabilities for the generalized domain. To address this new challenge, we present the Zero-interference Reparameterizable Adaptation (ZiRa), a novel method that introduces Zero-interference Loss and reparameterization techniques to tackle IVLOD without incurring additional inference costs or a significant increase in memory usage. Comprehensive experiments on COCO and ODinW-13 datasets demonstrate that ZiRa effectively safeguards the zero-shot generalization ability of VLODMs while continuously adapting to new tasks. Specifically, after training on ODinW-13 datasets, ZiRa exhibits superior performance compared to CL-DETR and iDETR, boosting zero-shot generalizability by substantial 13.91 and 8.74 AP, respectively.Our code is available at https://github.com/JarintotionDin/ZiRaGroundingDINO.
- Abstract(参考訳): 本稿では,VLODM(Incrmental Vision-Language Object Detection)を各種専門領域に段階的に適応させるとともに,一般領域のゼロショット一般化機能を同時に保持する新しい学習課題であるIVLODを提案する。
この新たな課題に対処するために、ゼロ干渉再パラメータ化適応(ZiRa)を提案する。これは、追加の推論コストやメモリ使用量の増加を伴わずに、IVLODに取り組むゼロ干渉損失と再パラメータ化技術を導入する新しい手法である。
COCOとODinW-13データセットに関する包括的な実験により、ZiRaは新しいタスクに継続的に適応しながら、VLODMのゼロショット一般化能力を効果的に保護していることが示された。
具体的には、ODinW-13データセットのトレーニングの後、ZiRaはCL-DETRとiDETRよりも優れたパフォーマンスを示し、ゼロショットの一般化性をそれぞれ13.91と8.74 APで向上させ、私たちのコードはhttps://github.com/JarintotionDin/ZiRaGroundingDINOで利用可能である。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Efficient and Versatile Robust Fine-Tuning of Zero-shot Models [34.27380518351181]
本稿では、下流タスクにゼロショットモデルを微調整する新しい手法であるRobust Adapter(R-Adapter)を紹介する。
本手法は, 軽量モジュールを事前学習モデルに統合し, OODロバスト性を高め, 保存コストを大幅に削減するために, 新たな自己アンサンブル技術を用いる。
実験により,R-Adapterは,CLIPエンコーダのパラメータの13%をチューニングし,タスクのさまざまなセットで最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2024-08-11T11:37:43Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation [14.225723195634941]
より強力なモデルからの教師なし知識の蒸留に基づく学習を促す新しい手法を提案する。
我々はKDPL(Knowledge Distillation Prompt Learning)と呼ぶアプローチを,既存の即興学習技術に統合することができる。
論文 参考訳(メタデータ) (2024-07-03T12:24:40Z) - APALU: A Trainable, Adaptive Activation Function for Deep Learning
Networks [0.0]
APALU(Adaptive piecewise approximated activation linear unit)を新たに導入する。
実験では、様々なタスクに広く使用されるアクティベーション関数よりも大幅に改善されている。
APALUは、限られたデータセットで手話認識タスクにおいて100%精度を達成する。
論文 参考訳(メタデータ) (2024-02-13T06:18:42Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。