論文の概要: Revisiting DETR Pre-training for Object Detection
- arxiv url: http://arxiv.org/abs/2308.01300v1
- Date: Wed, 2 Aug 2023 17:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:02:39.132412
- Title: Revisiting DETR Pre-training for Object Detection
- Title(参考訳): 物体検出のためのDETR事前学習の見直し
- Authors: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang,
Yuhui Yuan
- Abstract要約: 本研究では,COCOオブジェクト検出タスクにおける事前学習データセット,ローカライゼーション,分類対象生成方式の影響について検討する。
DETRegのような従来の代表的自己監督的アプローチは、完全なデータ構造に対する強力なDETRベースのアプローチのパフォーマンス向上に失敗している。
我々は、最新の画像からテキストへのキャプションモデル(LLaVA)とテキストから画像への生成モデル(SDXL)を組み合わせることで、一連の合成事前学習データセットを生成する。
- 参考スコア(独自算出の注目度): 16.501368011688516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by that DETR-based approaches have established new records on COCO
detection and segmentation benchmarks, many recent endeavors show increasing
interest in how to further improve DETR-based approaches by pre-training the
Transformer in a self-supervised manner while keeping the backbone frozen. Some
studies already claimed significant improvements in accuracy. In this paper, we
take a closer look at their experimental methodology and check if their
approaches are still effective on the very recent state-of-the-art such as
$\mathcal{H}$-Deformable-DETR. We conduct thorough experiments on COCO object
detection tasks to study the influence of the choice of pre-training datasets,
localization, and classification target generation schemes. Unfortunately, we
find the previous representative self-supervised approach such as DETReg, fails
to boost the performance of the strong DETR-based approaches on full data
regimes. We further analyze the reasons and find that simply combining a more
accurate box predictor and Objects$365$ benchmark can significantly improve the
results in follow-up experiments. We demonstrate the effectiveness of our
approach by achieving strong object detection results of AP=$59.3\%$ on COCO
val set, which surpasses $\mathcal{H}$-Deformable-DETR + Swin-L by +$1.4\%$.
Last, we generate a series of synthetic pre-training datasets by combining the
very recent image-to-text captioning models (LLaVA) and text-to-image
generative models (SDXL). Notably, pre-training on these synthetic datasets
leads to notable improvements in object detection performance. Looking ahead,
we anticipate substantial advantages through the future expansion of the
synthetic pre-training dataset.
- Abstract(参考訳): DETRベースのアプローチがCOCO検出とセグメンテーションのベンチマークに関する新たな記録を確立したことを動機として、近年の取り組みの多くは、バックボーンの凍結を維持しながら自己教師付きでTransformerをトレーニングすることで、DeTRベースのアプローチをさらに改善する方法に関心を示している。
一部の研究では、精度が大幅に向上した。
本稿では,その実験手法を詳しく検討し,そのアプローチが$\mathcal{h}$-deformable-detrのような最新技術で有効であるかどうかを確認する。
我々は,COCOオブジェクト検出タスクの徹底的な実験を行い,事前学習データセットの選択,ローカライゼーション,分類対象生成方式の影響について検討する。
残念なことに、DETRegのような以前の代表的自己監督アプローチは、完全なデータ構造に対する強力なDETRベースのアプローチのパフォーマンス向上に失敗している。
さらに、より正確なボックス予測器とObjects$365$ベンチマークを組み合わせるだけで、フォローアップ実験の結果が大幅に改善できる理由を分析します。
我々は, COCO val 上での AP=$59.3\%$ の強い物体検出結果が, $\mathcal{H}$-Deformable-DETR + Swin-L を$1.4\%$ で上回ることを示す。
最後に,画像からテキストへのキャプションモデル (LLaVA) とテキストから画像への生成モデル (SDXL) を組み合わせて,合成事前学習データセットを生成する。
特に、これらの合成データセットの事前トレーニングは、オブジェクト検出性能を顕著に向上させる。
今後,合成事前学習データセットの今後の拡張により,大きなメリットが期待できる。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。
実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文 参考訳(メタデータ) (2024-07-03T05:49:01Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Align-DETR: Improving DETR with Simple IoU-aware BCE loss [32.13866392998818]
そこで本稿では, 誤り訂正問題を定量的に評価するために, ベストレグレッションされたサンプルをリコールする計量法を提案する。
提案した損失であるIA-BCEは、DeTRのトレーニングをガイドし、分類スコアとローカライゼーション精度の強い相関関係を構築する。
クエリのスパーシリティによって引き起こされるサンプル品質の劇的な低下を克服するために,プライマリサンプル重み付け機構を導入する。
論文 参考訳(メタデータ) (2023-04-15T10:24:51Z) - ST-CoNAL: Consistency-Based Acquisition Criterion Using Temporal
Self-Ensemble for Active Learning [7.94190631530826]
トレーニングプロセスの効率を最大化するためには、アクティブラーニング(AL)がますます重要になっている。
学生教師の一貫性に基づくALアルゴリズム(ST-CoNAL)を提案する。
CIFAR-10、CIFAR-100、Caltech-256、Tiny ImageNetの画像分類タスクに対して行われた実験は、提案したSTCoNALが既存の取得方法よりも大幅に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-05T17:25:59Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection [86.0580214485104]
本稿では,オブジェクト検出のための汎用的で効率的な事前学習パラダイムであるMontage事前学習を提案する。
Montage事前トレーニングは、ターゲット検出データセットのみを必要とするが、広く採用されているImageNet事前トレーニングと比較して、計算リソースは1/4しかない。
モンタージュ事前学習の効率と有効性は、MS-COCOデータセットの広範な実験によって検証される。
論文 参考訳(メタデータ) (2020-04-25T16:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。