Fugu-MT 論文翻訳(概要): BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture

論文の概要: BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture

arxiv url: http://arxiv.org/abs/2309.08036v4
Date: Fri, 10 Nov 2023 12:01:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 17:54:08.048290
Title: BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture
Title（参考訳）: BEA:Budding Ensemble Architectureを用いたアンカーベースのオブジェクト検出DNNの再検討
Authors: Syed Sha Qutub and Neslihan Kose and Rafael Rosales and Michael Paulitsch and Korbinian Hagn and Florian Geissler and Yang Peng and Gereon Hinz and Alois Knoll
Abstract要約: Budding Ensemble Architecture(BEA)は、アンカーベースのオブジェクト検出モデルのための、新しい縮小アンサンブルアーキテクチャである。 BEAにおける損失関数は、信頼性スコアの校正を改善し、不確かさを低減させる。
参考スコア（独自算出の注目度）: 8.736601342033431
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces the Budding Ensemble Architecture (BEA), a novel reduced ensemble architecture for anchor-based object detection models. Object detection models are crucial in vision-based tasks, particularly in autonomous systems. They should provide precise bounding box detections while also calibrating their predicted confidence scores, leading to higher-quality uncertainty estimates. However, current models may make erroneous decisions due to false positives receiving high scores or true positives being discarded due to low scores. BEA aims to address these issues. The proposed loss functions in BEA improve the confidence score calibration and lower the uncertainty error, which results in a better distinction of true and false positives and, eventually, higher accuracy of the object detection models. Both Base-YOLOv3 and SSD models were enhanced using the BEA method and its proposed loss functions. The BEA on Base-YOLOv3 trained on the KITTI dataset results in a 6% and 3.7% increase in mAP and AP50, respectively. Utilizing a well-balanced uncertainty estimation threshold to discard samples in real-time even leads to a 9.6% higher AP50 than its base model. This is attributed to a 40% increase in the area under the AP50-based retention curve used to measure the quality of calibration of confidence scores. Furthermore, BEA-YOLOV3 trained on KITTI provides superior out-of-distribution detection on Citypersons, BDD100K, and COCO datasets compared to the ensembles and vanilla models of YOLOv3 and Gaussian-YOLOv3.
Abstract（参考訳）: 本稿では,アンカーベースオブジェクト検出モデルのための新しいアンサンブルアーキテクチャであるBudding Ensemble Architecture (BEA)を紹介する。物体検出モデルは視覚に基づくタスク、特に自律システムにおいて重要である。正確なバウンディングボックス検出を提供すると同時に、予測された信頼度スコアを調整し、高品質の不確実性推定につながるはずだ。しかし、現在のモデルは、高いスコアを受けた偽陽性や低いスコアで捨てられた真陽性のために誤った判断を下す可能性がある。 BEAはこれらの問題に対処することを目指している。提案する損失関数は信頼度スコア校正を改善し,不確実性誤差を低減し,真正と偽陽性の区別が向上し,オブジェクト検出モデルの精度が向上する。 Base-YOLOv3 と SSD はBEA 法と損失関数を用いて拡張された。 KITTIデータセットでトレーニングされたBase-YOLOv3上のBEAは、それぞれmAPとAP50の6%と3.7%増加している。バランスの取れた不確実性推定しきい値を利用してサンプルをリアルタイムに破棄することは、ベースモデルよりも9.6%高いap50となる。これは、信頼性スコアのキャリブレーションの質を測定するために使用されるAP50ベースの保持曲線の下で、面積が40%増加したためである。さらに、KITTIでトレーニングされたBEA-YOLOV3は、YOLOv3とGaussian-YOLOv3のアンサンブルやバニラモデルと比較して、Citypersons、BDD100K、COCOデータセットに優れたアウトオブディストリビューション検出を提供する。

関連論文リスト

LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。我々の結果は現在の状態を示している。
論文参考訳（メタデータ） (2025-05-26T01:20:44Z)
Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文参考訳（メタデータ） (2024-11-11T13:13:39Z)
Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文参考訳（メタデータ） (2024-10-31T13:13:32Z)
Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文参考訳（メタデータ） (2024-05-27T17:59:39Z)
Producing Plankton Classifiers that are Robust to Dataset Shift [1.716364772047407]
ZooLakeデータセットを10日間の独立デプロイから手動でアノテートしたイメージと統合し、OOD(Out-Of-Dataset)のパフォーマンスをベンチマークします。分類に悪影響を及ぼすOOD画像において,新たなデータの分類において潜在的な落とし穴を識別するプリエンプティブアセスメント手法を提案する。 BEiTビジョントランスのアンサンブルは,OODロバスト性,幾何アンサンブル,回転型テストタイムアンサンブルに対応し,BEsTモデルと呼ばれる最もロバストなモデルとなっている。
論文参考訳（メタデータ） (2024-01-25T15:47:18Z)
Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。 OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-03T05:41:25Z)
A Computer Vision Enabled damage detection model with improved YOLOv5 based on Transformer Prediction Head [0.0]
現在の最先端ディープラーニング(DL)に基づく損傷検出モデルは、複雑でノイズの多い環境では優れた特徴抽出能力を欠いていることが多い。 DenseSPH-YOLOv5は、DenseNetブロックをバックボーンに統合したリアルタイムDLベースの高性能損傷検出モデルである。 DenseSPH-YOLOv5は平均平均精度(mAP)が85.25%、F1スコアが81.18%、精度(P)が89.51%である。
論文参考訳（メタデータ） (2023-03-07T22:53:36Z)
What Can We Learn From The Selective Prediction And Uncertainty Estimation Performance Of 523 Imagenet Classifiers [15.929238800072195]
本稿では,既存の523の事前学習深層画像ネット分類器の選択的予測と不確実性評価性能について述べる。蒸留法に基づくトレーニング体制は、他のトレーニング方式よりも常により良い不確実性推定を導出することを発見した。例えば、ImageNetでは前例のない99%のトップ1選択精度を47%で発見しました。
論文参考訳（メタデータ） (2023-02-23T09:25:28Z)
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。 AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文参考訳（メタデータ） (2022-06-30T17:55:12Z)
Localization Uncertainty-Based Attention for Object Detection [8.154943252001848]
ガウスモデルを用いて, 4方向位置決めの不確かさを予測できる, より効率的な不確実性認識型高密度検出器 (UADET) を提案する。 MS COCOベンチマークを用いた実験によると、UADETはベースラインFCOSを一貫して上回り、最高のモデルであるResNext-64x4d-101-DCNは、COCOテストデーブで48.3%の単一スケールAPを得る。
論文参考訳（メタデータ） (2021-08-25T04:32:39Z)
Unlabelled Data Improves Bayesian Uncertainty Calibration under Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文参考訳（メタデータ） (2020-06-26T13:50:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。