論文の概要: Zero-shot Generalizable Incremental Learning for Vision-Language Object
Detection
- arxiv url: http://arxiv.org/abs/2403.01680v1
- Date: Mon, 4 Mar 2024 02:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:15:20.734323
- Title: Zero-shot Generalizable Incremental Learning for Vision-Language Object
Detection
- Title(参考訳): 視覚言語物体検出のためのゼロショット一般化インクリメンタル学習
- Authors: Jieren Deng, Haojian Zhang, Kun Ding, Jianhua Hu, Xingxuan Zhang,
Yunkuan Wang
- Abstract要約: Incrmental Vision-Language Object Detection (IVLOD) は、訓練済みのVLODMを様々な専門分野に段階的に適応させる新しい学習タスクである。
新たな手法であるZiRaを提案する。ZiRaは、新たな推論コストやメモリ使用量の増加を伴わずに、IVLODに対処するためのゼロ干渉損失とreパラメタライゼーション技術を導入する。
COCOとODinW-13データセットの実験により、ZiRaは新しいタスクに継続的に適応しながら、VLODMのゼロショット一般化能力を効果的に保護していることが示された。
- 参考スコア(独自算出の注目度): 12.066922664696442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Incremental Vision-Language Object Detection (IVLOD), a
novel learning task designed to incrementally adapt pre-trained Vision-Language
Object Detection Models (VLODMs) to various specialized domains, while
simultaneously preserving their zero-shot generalization capabilities for the
generalized domain. To address this new challenge, we present the
Zero-interference Reparameterizable Adaptation (ZiRa), a novel method that
introduces Zero-interference Loss and reparameterization techniques to tackle
IVLOD without incurring additional inference costs or a significant increase in
memory usage. Comprehensive experiments on COCO and ODinW-13 datasets
demonstrate that ZiRa effectively safeguards the zero-shot generalization
ability of VLODMs while continuously adapting to new tasks. Specifically, after
training on ODinW-13 datasets, ZiRa exhibits superior performance compared to
CL-DETR and iDETR, boosting zero-shot generalizability by substantial 13.91 and
8.71 AP, respectively.
- Abstract(参考訳): 本稿では,VLODM(Incrmental Vision-Language Object Detection)を各種専門領域に段階的に適応させるとともに,一般領域のゼロショット一般化機能を同時に維持する新しい学習課題であるIVLODを提案する。
この新たな課題に対処するために、ゼロ干渉再パラメータ化適応(ZiRa)を提案する。これは、追加の推論コストやメモリ使用量の増加を伴わずに、IVLODに取り組むゼロ干渉損失と再パラメータ化技術を導入する新しい手法である。
COCOとODinW-13データセットに関する包括的な実験により、ZiRaは新しいタスクに継続的に適応しながら、VLODMのゼロショット一般化能力を効果的に保護していることが示された。
具体的には、ODinW-13データセットのトレーニングの後、ZiRaはCL-DETRとiDETRよりも優れた性能を示し、それぞれ13.91 APと8.71 APのゼロショット一般化性を高めた。
関連論文リスト
- Contrastive Learning with Orthonormal Anchors (CLOA) [0.0]
本研究では,コントラスト学習における不安定性問題に対処すること,特にInfoNCE損失関数とその導関数について検討する。
我々はこれらの損失関数が制限的な挙動を示すことを批判的に観察し、埋め込みが特異点にマージする傾向にある収束現象を導いた。
この「オーバーフュージョン」効果は、その後の教師あり学習タスクの分類精度に有害である。
論文 参考訳(メタデータ) (2024-03-27T15:48:16Z) - APALU: A Trainable, Adaptive Activation Function for Deep Learning
Networks [0.0]
APALU(Adaptive piecewise approximated activation linear unit)を新たに導入する。
実験では、様々なタスクに広く使用されるアクティベーション関数よりも大幅に改善されている。
APALUは、限られたデータセットで手話認識タスクにおいて100%精度を達成する。
論文 参考訳(メタデータ) (2024-02-13T06:18:42Z) - Zero Shot Open-ended Video Inference [54.04466746939197]
ゼロショットオープンエンド推論タスクを実行するための適応可能なフレームワークを提案する。
我々の実験は、ゴール推論とアクション認識タスクのための様々なビデオアクションデータセットにまたがる。
特に,提案フレームワークは,行動認識タスクに効果的に一般化する能力を示す。
論文 参考訳(メタデータ) (2024-01-23T03:45:05Z) - Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。