論文の概要: Decoupled DETR For Few-shot Object Detection
- arxiv url: http://arxiv.org/abs/2311.11570v1
- Date: Mon, 20 Nov 2023 07:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:41:18.352876
- Title: Decoupled DETR For Few-shot Object Detection
- Title(参考訳): Few-shot Object DetectionのためのデカップリングDETR
- Authors: Zeyu Shangguan, Lian Huai, Tong Liu, Xingqun Jiang
- Abstract要約: サンプル不均衡と弱い特徴伝搬の深刻な問題に対処するためにFSODモデルを改善した。
出力機能としてデコーダ層を動的に融合できる統一デコーダモジュールを構築しました。
提案するモジュールは,微調整とメタラーニングの両方のパラダイムにおいて,5%から10%の安定的な改善を達成できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.520231308678286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot object detection (FSOD), an efficient method for addressing the
severe data-hungry problem, has been extensively discussed. Current works have
significantly advanced the problem in terms of model and data. However, the
overall performance of most FSOD methods still does not fulfill the desired
accuracy. In this paper we improve the FSOD model to address the severe issue
of sample imbalance and weak feature propagation. To alleviate modeling bias
from data-sufficient base classes, we examine the effect of decoupling the
parameters for classes with sufficient data and classes with few samples in
various ways. We design a base-novel categories decoupled DETR (DeDETR) for
FSOD. We also explore various types of skip connection between the encoder and
decoder for DETR. Besides, we notice that the best outputs could come from the
intermediate layer of the decoder instead of the last layer; therefore, we
build a unified decoder module that could dynamically fuse the decoder layers
as the output feature. We evaluate our model on commonly used datasets such as
PASCAL VOC and MSCOCO. Our results indicate that our proposed module could
achieve stable improvements of 5% to 10% in both fine-tuning and meta-learning
paradigms and has outperformed the highest score in recent works.
- Abstract(参考訳): Few-shot Object Detection (FSOD) は、重度のデータ・ハングリー問題に対処する効率的な方法である。
現在の研究は、モデルとデータの観点から問題を著しく前進させてきた。
しかし、ほとんどのFSOD手法の全体的な性能は依然として所望の精度を満たさない。
本稿では,サンプル不均衡と弱い特徴伝搬の深刻な問題に対処するため,FSODモデルを改善する。
データに十分なベースクラスからのモデリングバイアスを軽減するため,サンプルが少ないクラスと十分なデータでパラメータを分離する効果について検討した。
FSODのためのDeTR(DeDETR)をベースノーベルカテゴリとして設計する。
また、detrのエンコーダとデコーダ間の様々なタイプのスキップ接続についても検討する。
さらに、最善の出力が最終層ではなくデコーダの中間層から得られる可能性があることに気付き、デコーダ層を出力機能として動的に融合できる統一デコーダモジュールを構築した。
PASCAL VOCやMSCOCOなどの一般的なデータセットを用いて,本モデルの評価を行った。
提案するモジュールは,微調整とメタラーニングの両方のパラダイムにおいて,5%から10%の安定的な改善を達成でき,近年の成果では最高の成績を示した。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis [0.7751705157998379]
十分に注釈付けされた医療データセットの不足は、ImageNetのような広範なデータセットやCLIPのような事前訓練されたモデルからの移行学習を活用する必要がある。
モデルスープは、In-Domain(ID)タスクのパフォーマンスを改善し、out-of-Distribution(OOD)データセットに対する堅牢性を高めることを目的とした、複数の微調整されたモデルの平均である。
本稿では,様々なレベルのモデルの局所的および大域的集約を伴う階層的統合手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T06:48:48Z) - Staged Depthwise Correlation and Feature Fusion for Siamese Object
Tracking [0.6827423171182154]
視覚的トラッキングのための特徴抽出をさらに最適化するために,DCFFNet という新たな段階的深度相関と特徴融合ネットワークを提案する。
シアムネットワークアーキテクチャに基づいてディープトラッカーを構築しており、複数の大規模データセットでゼロからトレーニングされたオフラインです。
OTB100,VOT2018,LaSOTなど,一般的なベンチマークにトラッカーを実装した。
論文 参考訳(メタデータ) (2023-10-15T06:04:42Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Learning Disentangled Latent Factors from Paired Data in Cross-Modal
Retrieval: An Implicit Identifiable VAE Approach [33.61751393224223]
両モーダルデータ間で相互に共有される不整合潜在因子を相互に検索する際の問題に対処する。
本稿では,潜在変数モデルから周辺データデコードモジュールを完全に除去する暗黙デコーダの新たなアイデアを提案する。
本モデルでは,従来のエンコーダ・デコーダの潜在変数モデルよりも精度が高く,精度も優れていた。
論文 参考訳(メタデータ) (2020-12-01T17:47:50Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。