論文の概要: Revisiting DETR Pre-training for Object Detection
- arxiv url: http://arxiv.org/abs/2308.01300v2
- Date: Fri, 1 Dec 2023 18:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:21:58.086065
- Title: Revisiting DETR Pre-training for Object Detection
- Title(参考訳): 物体検出のためのDETR事前学習の見直し
- Authors: Yan Ma, Weicong Liang, Bohan Chen, Yiduo Hao, Bojian Hou, Xiangyu Yue,
Chao Zhang, Yuhui Yuan
- Abstract要約: 完全データ条件下での堅牢なDETRモデルの性能向上におけるDETRegの欠点について検討する。
我々は、改良されたボックス予測器とObjects$365$ベンチマークを組み合わせることで、目立った拡張をもたらす、Simple Self-trainingという最適化されたアプローチを採用しています。
これらの努力の結果、COCO valセットのAPスコアは59.3%で、事前トレーニングなしで$mathcalH$-Deformable-DETR + Swin-Lを1.4%で上回った。
- 参考スコア(独自算出の注目度): 24.372444866927538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the remarkable achievements of DETR-based approaches on COCO
object detection and segmentation benchmarks, recent endeavors have been
directed towards elevating their performance through self-supervised
pre-training of Transformers while preserving a frozen backbone. Noteworthy
advancements in accuracy have been documented in certain studies. Our
investigation delved deeply into a representative approach, DETReg, and its
performance assessment in the context of emerging models like
$\mathcal{H}$-Deformable-DETR. Regrettably, DETReg proves inadequate in
enhancing the performance of robust DETR-based models under full data
conditions. To dissect the underlying causes, we conduct extensive experiments
on COCO and PASCAL VOC probing elements such as the selection of pre-training
datasets and strategies for pre-training target generation. By contrast, we
employ an optimized approach named Simple Self-training which leads to marked
enhancements through the combination of an improved box predictor and the
Objects$365$ benchmark. The culmination of these endeavors results in a
remarkable AP score of $59.3\%$ on the COCO val set, outperforming
$\mathcal{H}$-Deformable-DETR + Swin-L without pre-training by $1.4\%$.
Moreover, a series of synthetic pre-training datasets, generated by merging
contemporary image-to-text(LLaVA) and text-to-image (SDXL) models,
significantly amplifies object detection capabilities.
- Abstract(参考訳): DETRによるCOCOオブジェクト検出とセグメンテーションベンチマークの顕著な成果により、近年の取り組みは、凍結したバックボーンを維持しながら、トランスフォーマーの自己教師付き事前トレーニングを通じてパフォーマンスを高めることを目的としている。
精度の顕著な進歩は、特定の研究で記録されている。
我々の調査は、DeTRegという代表的アプローチと、$\mathcal{H}$-Deformable-DETRのような新興モデルの文脈におけるパフォーマンス評価を深く掘り下げた。
DETRegは、完全なデータ条件下での堅牢なDETRベースのモデルの性能向上には不十分である。
本研究は,COCOとPASCAL VOCの探索要素である事前学習データセットの選択や,事前学習対象生成のための戦略に関する広範な実験を行う。
対照的に、私たちはSimple Self-trainingという最適化されたアプローチを採用しており、改善されたボックス予測器とObjects$365$ベンチマークを組み合わせることで、顕著な拡張をもたらしています。
これらの努力の結果、COCO valセットのAPスコアは59.3 %で、事前トレーニングなしで$\mathcal{H}$-Deformable-DETR + Swin-Lより優れている。
さらに、コンテンポラリーイメージ・トゥ・テキスト(LLaVA)とテキスト・トゥ・イメージ(SDXL)モデルを組み合わせることで生成された一連の合成事前学習データセットは、オブジェクト検出能力を著しく増幅する。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。
実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文 参考訳(メタデータ) (2024-07-03T05:49:01Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Align-DETR: Improving DETR with Simple IoU-aware BCE loss [32.13866392998818]
そこで本稿では, 誤り訂正問題を定量的に評価するために, ベストレグレッションされたサンプルをリコールする計量法を提案する。
提案した損失であるIA-BCEは、DeTRのトレーニングをガイドし、分類スコアとローカライゼーション精度の強い相関関係を構築する。
クエリのスパーシリティによって引き起こされるサンプル品質の劇的な低下を克服するために,プライマリサンプル重み付け機構を導入する。
論文 参考訳(メタデータ) (2023-04-15T10:24:51Z) - ST-CoNAL: Consistency-Based Acquisition Criterion Using Temporal
Self-Ensemble for Active Learning [7.94190631530826]
トレーニングプロセスの効率を最大化するためには、アクティブラーニング(AL)がますます重要になっている。
学生教師の一貫性に基づくALアルゴリズム(ST-CoNAL)を提案する。
CIFAR-10、CIFAR-100、Caltech-256、Tiny ImageNetの画像分類タスクに対して行われた実験は、提案したSTCoNALが既存の取得方法よりも大幅に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-05T17:25:59Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection [86.0580214485104]
本稿では,オブジェクト検出のための汎用的で効率的な事前学習パラダイムであるMontage事前学習を提案する。
Montage事前トレーニングは、ターゲット検出データセットのみを必要とするが、広く採用されているImageNet事前トレーニングと比較して、計算リソースは1/4しかない。
モンタージュ事前学習の効率と有効性は、MS-COCOデータセットの広範な実験によって検証される。
論文 参考訳(メタデータ) (2020-04-25T16:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。