論文の概要: Dynamic Object Queries for Transformer-based Incremental Object Detection
- arxiv url: http://arxiv.org/abs/2407.21687v1
- Date: Wed, 31 Jul 2024 15:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 17:41:37.594603
- Title: Dynamic Object Queries for Transformer-based Incremental Object Detection
- Title(参考訳): 変圧器を用いたインクリメンタルオブジェクト検出のための動的オブジェクトクエリ
- Authors: Jichuan Zhang, Wei Li, Shuang Cheng, Ya-Li Li, Shengjin Wang,
- Abstract要約: インクリメンタルオブジェクト検出は、新しいクラスを逐次学習することを目的としている。
従来の方法論は主に知識の蒸留と模範的な再生を通じて忘れる問題に取り組む。
安定塑性トレードオフを実現するためのモデル表現能力を漸進的に拡張するDyQ-DETRを提案する。
- 参考スコア(独自算出の注目度): 45.41291377837515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incremental object detection (IOD) aims to sequentially learn new classes, while maintaining the capability to locate and identify old ones. As the training data arrives with annotations only with new classes, IOD suffers from catastrophic forgetting. Prior methodologies mainly tackle the forgetting issue through knowledge distillation and exemplar replay, ignoring the conflict between limited model capacity and increasing knowledge. In this paper, we explore \textit{dynamic object queries} for incremental object detection built on Transformer architecture. We propose the \textbf{Dy}namic object \textbf{Q}uery-based \textbf{DE}tection \textbf{TR}ansformer (DyQ-DETR), which incrementally expands the model representation ability to achieve stability-plasticity tradeoff. First, a new set of learnable object queries are fed into the decoder to represent new classes. These new object queries are aggregated with those from previous phases to adapt both old and new knowledge well. Second, we propose the isolated bipartite matching for object queries in different phases, based on disentangled self-attention. The interaction among the object queries at different phases is eliminated to reduce inter-class confusion. Thanks to the separate supervision and computation over object queries, we further present the risk-balanced partial calibration for effective exemplar replay. Extensive experiments demonstrate that DyQ-DETR significantly surpasses the state-of-the-art methods, with limited parameter overhead. Code will be made publicly available.
- Abstract(参考訳): インクリメンタルオブジェクト検出(IOD)は、新しいクラスを逐次学習することを目的としている。
トレーニングデータが新しいクラスでのみアノテーションと共にやってくると、IODは破滅的な忘れに苦しむ。
それまでの方法論は主に、知識の蒸留と模範的な再生を通じて忘れられる問題に取り組み、限られたモデル能力と知識の増加の間の矛盾を無視していた。
本稿では,Transformer アーキテクチャ上に構築されたインクリメンタルオブジェクト検出のための textit{dynamic object query} について検討する。
本稿では, 安定性と塑性のトレードオフを実現するために, モデル表現能力を漸進的に拡張する, \textbf{Dy}namic object \textbf{Q}uery-based \textbf{DE}tection \textbf{TR}ansformer (DyQ-DETR)を提案する。
まず、新しいクラスを表現するために、学習可能な新しいオブジェクトクエリのセットがデコーダに入力される。
これらの新しいオブジェクトクエリは、古い知識と新しい知識の両方をうまく適応させるために、以前のフェーズのクエリと集約されます。
第2に,不整合自己意図に基づく,異なる位相のオブジェクトクエリに対する分離された二部マッチングを提案する。
異なるフェーズにおけるオブジェクトクエリ間の相互作用を排除し、クラス間の混乱を減らす。
オブジェクトクエリに対する個別の監視と計算により、リスクバランスの取れた部分キャリブレーションを有効に再現する。
大規模な実験により、DyQ-DETRはパラメータのオーバーヘッドが限られ、最先端の手法を大幅に上回っていることが示された。
コードは公開されます。
関連論文リスト
- A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - DualTeacher: Bridging Coexistence of Unlabelled Classes for
Semi-supervised Incremental Object Detection [53.8061502411777]
現実世界のアプリケーションでは、オブジェクト検出器は、しばしば新しいクラスのオブジェクトインスタンスに遭遇し、それらを効果的に適合させる必要がある。
以前の作業では、この重要な問題をインクリメンタルオブジェクト検出(IOD)として定式化しており、新しいクラスのオブジェクトインスタンスがインクリメンタルデータで完全に注釈付けされていると仮定している。
我々は、より現実的な半教師付きIOD (SSIOD) について考察する。オブジェクト検出器は、ラベル付きデータと大量の非ラベル付きデータから、段階的に新しいクラスを学習する必要がある。
論文 参考訳(メタデータ) (2023-12-13T10:46:14Z) - TIDE: Test Time Few Shot Object Detection [11.036762620105383]
Few-shot Object Detection (FSOD) は、対象ドメイン内の新しいカテゴリの限られたオブジェクトインスタンスから意味的知識を抽出することを目的としている。
FSODの最近の進歩は、メタ学習やデータ拡張を通じて、いくつかのオブジェクトに基づいてベースモデルを微調整することに焦点を当てている。
我々は、新しいFSODタスクを定式化し、TIDE(Test TIme Few Shot Detection)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-30T09:00:44Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - D2Q-DETR: Decoupling and Dynamic Queries for Oriented Object Detection
with Transformers [14.488821968433834]
オブジェクト指向オブジェクト検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはDETRに基づいており、ボックスレグレッションヘッドはポイント予測ヘッドに置き換えられている。
最大かつ挑戦的なDOTA-v1.0データセットとDOTA-v1.5データセットの実験は、D2Q-DETRが既存のNMSベースおよびNMSのないオブジェクト指向オブジェクト検出方法より優れていることを示している。
論文 参考訳(メタデータ) (2023-03-01T14:36:19Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - Multi-View Correlation Distillation for Incremental Object Detection [12.536640582318949]
我々は,新しいtextbfMulti-textbfView textbfCorrelation textbfDistillation (MVCD) を用いたインクリメンタルオブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2021-07-05T04:36:33Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。