論文の概要: Union-over-Intersections: Object Detection beyond Winner-Takes-All
- arxiv url: http://arxiv.org/abs/2311.18512v2
- Date: Thu, 19 Dec 2024 14:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:28:06.263022
- Title: Union-over-Intersections: Object Detection beyond Winner-Takes-All
- Title(参考訳): Union-over-Intersections: Winner-Takes-Allを越えたオブジェクト検出
- Authors: Aritra Bhowmik, Pascal Mettes, Martin R. Oswald, Cees G. M. Snoek,
- Abstract要約: 本稿では,オブジェクト検出アーキテクチャにおけるボックス位置の予測問題を再検討する。
提案手法は,提案と基礎的真理の交差領域のみに回帰する,より単純なアプローチを提案する。
勝敗戦略を採用する代わりに、地域内のすべてのボックスの後退した交差点をユニオンとして、最終的なボックス出力を生成する。
- 参考スコア(独自算出の注目度): 54.89876370237598
- License:
- Abstract: This paper revisits the problem of predicting box locations in object detection architectures. Typically, each box proposal or box query aims to directly maximize the intersection-over-union score with the ground truth, followed by a winner-takes-all non-maximum suppression where only the highest scoring box in each region is retained. We observe that both steps are sub-optimal: the first involves regressing proposals to the entire ground truth, which is a difficult task even with large receptive fields, and the second neglects valuable information from boxes other than the top candidate. Instead of regressing proposals to the whole ground truth, we propose a simpler approach: regress only to the area of intersection between the proposal and the ground truth. This avoids the need for proposals to extrapolate beyond their visual scope, improving localization accuracy. Rather than adopting a winner-takes-all strategy, we take the union over the regressed intersections of all boxes in a region to generate the final box outputs. Our plug-and-play method integrates seamlessly into proposal-based, grid-based, and query-based detection architectures with minimal modifications, consistently improving object localization and instance segmentation. We demonstrate its broad applicability and versatility across various detection and segmentation tasks.
- Abstract(参考訳): 本稿では,オブジェクト検出アーキテクチャにおけるボックス位置の予測問題を再検討する。
通常、各ボックスの提案またはボックスクエリは、共通点と共通点のスコアを直接最大化することを目的としており、その後、各領域の最高スコアボックスのみが保持される、すべての非最大値の抑制が続く。
いずれのステップも準最適であり、第1に、大きな受容領域であっても難しい課題である、第1に、最上位候補以外のボックスからの貴重な情報を無視する。
提案を根本真理に回帰させるのではなく、提案と根本真理の交点にのみ回帰するという、より単純なアプローチを提案する。
これにより、視覚範囲を超えて外挿する提案が不要になり、ローカライゼーションの精度が向上する。
勝敗戦略を採用するのではなく、領域内のすべてのボックスの後退した交差点をユニオンとして、最終的なボックス出力を生成する。
提案手法は,提案方式,グリッド方式,クエリ方式の検出アーキテクチャを最小限の修正でシームレスに統合し,オブジェクトのローカライゼーションとインスタンスのセグメンテーションを継続的に改善する。
様々な検出・セグメント化タスクにまたがって適用性と汎用性を示す。
関連論文リスト
- Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Improving Single Domain-Generalized Object Detection: A Focus on Diversification and Alignment [17.485775402656127]
基底検出器は、単一領域の一般化のための既存の手法を良いマージンで上回ることができる。
分類と局所化の両方の出力を考慮して,複数のビューから検出を整列する手法を提案する。
我々のアプローチは検出器非依存であり、単段検出器と二段検出器の両方にシームレスに適用できる。
論文 参考訳(メタデータ) (2024-05-23T12:29:25Z) - FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。
我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。
エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty
Regularization [73.03956876752868]
我々は、ネットワークがオブジェクトの他の部分に注意を払うことを可能にする、原則的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
具体的には、ミックスアップデータ拡張方式を分類ネットワークに導入し、2つの不確実な正規化項を設計し、ミックスアップ戦略をよりよく扱う。
論文 参考訳(メタデータ) (2020-08-03T21:19:08Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。