Fugu-MT 論文翻訳(概要): Union-over-Intersections: Object Detection beyond Winner-Takes-All

論文の概要: Union-over-Intersections: Object Detection beyond Winner-Takes-All

arxiv url: http://arxiv.org/abs/2311.18512v2
Date: Thu, 19 Dec 2024 14:46:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.616819
Title: Union-over-Intersections: Object Detection beyond Winner-Takes-All
Title（参考訳）: Union-over-Intersections: Winner-Takes-Allを越えたオブジェクト検出
Authors: Aritra Bhowmik, Pascal Mettes, Martin R. Oswald, Cees G. M. Snoek,
Abstract要約: 本稿では,オブジェクト検出アーキテクチャにおけるボックス位置の予測問題を再検討する。提案手法は,提案と基礎的真理の交差領域のみに回帰する,より単純なアプローチを提案する。勝敗戦略を採用する代わりに、地域内のすべてのボックスの後退した交差点をユニオンとして、最終的なボックス出力を生成する。
参考スコア（独自算出の注目度）: 54.89876370237598
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper revisits the problem of predicting box locations in object detection architectures. Typically, each box proposal or box query aims to directly maximize the intersection-over-union score with the ground truth, followed by a winner-takes-all non-maximum suppression where only the highest scoring box in each region is retained. We observe that both steps are sub-optimal: the first involves regressing proposals to the entire ground truth, which is a difficult task even with large receptive fields, and the second neglects valuable information from boxes other than the top candidate. Instead of regressing proposals to the whole ground truth, we propose a simpler approach: regress only to the area of intersection between the proposal and the ground truth. This avoids the need for proposals to extrapolate beyond their visual scope, improving localization accuracy. Rather than adopting a winner-takes-all strategy, we take the union over the regressed intersections of all boxes in a region to generate the final box outputs. Our plug-and-play method integrates seamlessly into proposal-based, grid-based, and query-based detection architectures with minimal modifications, consistently improving object localization and instance segmentation. We demonstrate its broad applicability and versatility across various detection and segmentation tasks.
Abstract（参考訳）: 本稿では,オブジェクト検出アーキテクチャにおけるボックス位置の予測問題を再検討する。通常、各ボックスの提案またはボックスクエリは、共通点と共通点のスコアを直接最大化することを目的としており、その後、各領域の最高スコアボックスのみが保持される、すべての非最大値の抑制が続く。いずれのステップも準最適であり、第1に、大きな受容領域であっても難しい課題である、第1に、最上位候補以外のボックスからの貴重な情報を無視する。提案を根本真理に回帰させるのではなく、提案と根本真理の交点にのみ回帰するという、より単純なアプローチを提案する。これにより、視覚範囲を超えて外挿する提案が不要になり、ローカライゼーションの精度が向上する。勝敗戦略を採用するのではなく、領域内のすべてのボックスの後退した交差点をユニオンとして、最終的なボックス出力を生成する。提案手法は,提案方式,グリッド方式,クエリ方式の検出アーキテクチャを最小限の修正でシームレスに統合し,オブジェクトのローカライゼーションとインスタンスのセグメンテーションを継続的に改善する。様々な検出・セグメント化タスクにまたがって適用性と汎用性を示す。

関連論文リスト

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning [69.75509909581133]
RegionReasonerは視覚的推論のための強化学習フレームワークである。これは、それぞれの推論トレースに対応する参照境界ボックスを明示的に引用することを要求することによって、根拠付き推論を強制する。 RegionReasonerは、基礎となる忠実さとグローバルなセマンティックアライメントを組み合わせた構造化された報酬で最適化されている。
論文参考訳（メタデータ） (2026-02-03T16:52:16Z)
Dual-Thresholding Heatmaps to Cluster Proposals for Weakly Supervised Object Detection [19.807828545088082]
近年,WSOD (Weakly supervised Object Detection) が注目されている。本稿では,各提案をバックグラウンドクラス表現で拡張する弱教師付き基本検出ネットワーク(WSBDN)を提案する。 VOC 2007ではmAP/mCorLocスコアが58.5%/81.8%、VOC 2012では55.6%/80.5%となり、最先端のWSOD法に対して良好に機能する。
論文参考訳（メタデータ） (2025-09-10T05:12:03Z)
P2Object: Single Point Supervised Object Detection and Instance Segmentation [58.778288785355]
バランスの取れたtextbftextitinstance レベルの提案バッグを構成する Point-to-Box Network (P2BNet) を導入する。 P2MNetはより正確なバウンディングボックスを生成し、セグメンテーションタスクに一般化することができる。提案手法は,COCO,VOC,Cityscapesの平均精度において,従来の手法をはるかに上回っている。
論文参考訳（メタデータ） (2025-04-10T14:51:08Z)
Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文参考訳（メタデータ） (2024-11-06T11:03:02Z)
Improving Single Domain-Generalized Object Detection: A Focus on Diversification and Alignment [17.485775402656127]
基底検出器は、単一領域の一般化のための既存の手法を良いマージンで上回ることができる。分類と局所化の両方の出力を考慮して,複数のビューから検出を整列する手法を提案する。我々のアプローチは検出器非依存であり、単段検出器と二段検出器の両方にシームレスに適用できる。
論文参考訳（メタデータ） (2024-05-23T12:29:25Z)
See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文参考訳（メタデータ） (2023-12-13T18:58:04Z)
Domain Generalization via Rationale Invariance [70.32415695574555]
本稿では,未確認環境においてもロバストな結果の維持を伴う領域一般化の課題を緩和する新たな視点を提供する。本稿では,最終結果に対する要素的貢献を決定の根拠として扱い,各試料の根拠を行列として表現することを提案する。提案手法は, 単純性に拘わらず, 様々なデータセット間で競合する結果が得られることを示す。
論文参考訳（メタデータ） (2023-08-22T03:31:40Z)
FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文参考訳（メタデータ） (2022-03-31T17:59:30Z)
Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文参考訳（メタデータ） (2021-08-15T14:36:02Z)
Optimization for Oriented Object Detection via Representation Invariance Loss [2.501282372971187]
主流の回転検出器は、回転物体を表すために指向境界ボックス(OBB)または四方境界ボックス(QBB)を使用する。回転物体に対する境界ボックス回帰を最適化するために,Representation Invariance Loss (RIL)を提案する。本手法は,リモートセンシングデータセットとシーンテキストデータセットの実験において,一貫性と大幅な改善を実現する。
論文参考訳（メタデータ） (2021-03-22T07:55:33Z)
Which to Match? Selecting Consistent GT-Proposal Assignment for Pedestrian Detection [23.92066492219922]
IoU(Universal Intersection over Union)ベースの割り当て-回帰方式は依然としてパフォーマンスを制限している。新しい割り当てと回帰メトリックとして、1つの幾何学的敏感検索アルゴリズムを紹介します。具体的には、MR-FPPIをR$_75$で8.8%向上させます。
論文参考訳（メタデータ） (2021-03-18T08:54:51Z)
Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning [20.23920009396818]
我々は,問合せ文に従って対象オブジェクトをローカライズすることを目的とした,提案なし参照表現基底化タスクに取り組んでいる。既存のプロポーザルフリー手法では、クエリ画像マッチングブランチを使用して、画像特徴マップの最高スコアをターゲットボックスセンターとして選択する。対象を局所化するための反復的縮小機構を提案し,強化学習エージェントによって縮小方向が決定される。
論文参考訳（メタデータ） (2021-03-09T02:36:45Z)
Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty Regularization [73.03956876752868]
我々は、ネットワークがオブジェクトの他の部分に注意を払うことを可能にする、原則的でエンドツーエンドのトレーニング可能なフレームワークを提案する。具体的には、ミックスアップデータ拡張方式を分類ネットワークに導入し、2つの不確実な正規化項を設計し、ミックスアップ戦略をよりよく扱う。
論文参考訳（メタデータ） (2020-08-03T21:19:08Z)
1st Place Solutions for OpenImage2019 -- Object Detection and Instance Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文参考訳（メタデータ） (2020-03-17T06:45:07Z)
Proposal Learning for Semi-Supervised Object Detection [76.83284279733722]
地上の真理ラベルが利用できないため、ラベルのないデータで物体検出器を訓練するのは簡単ではない。ラベル付きデータとラベルなしデータの両方から提案特徴と予測を学習するための提案学習手法を提案する。
論文参考訳（メタデータ） (2020-01-15T00:06:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。