論文の概要: Explore Intrinsic Geometry for Query-based Tiny and Oriented Object Detector with Momentum-based Bipartite Matching
- arxiv url: http://arxiv.org/abs/2602.13728v1
- Date: Sat, 14 Feb 2026 11:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.363957
- Title: Explore Intrinsic Geometry for Query-based Tiny and Oriented Object Detector with Momentum-based Bipartite Matching
- Title(参考訳): モーメントベースバイパートイトマッチングを用いたクエリベースTinyおよびOriented Object Detectorの固有幾何探索
- Authors: Junpeng Zhang, Zewei Yang, Jie Feng, Yuhui Zheng, Ronghua Shang, Mengxuan Zhang,
- Abstract要約: IGOFormerは、固有の幾何学を特徴デコードに統合する、クエリベースのオブジェクト指向オブジェクト検出器である。
歴史的マッチングコストを適応的に集約するモメンタムベースのBipartite Matchingスキームを開発した。
航空機指向物体検出におけるIGOFormerの優位性を示す実験とアブレーション実験を行った。
- 参考スコア(独自算出の注目度): 29.566669515949155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent query-based detectors have achieved remarkable progress, yet their performance remains constrained when handling objects with arbitrary orientations, especially for tiny objects capturing limited texture information. This limitation primarily stems from the underutilization of intrinsic geometry during pixel-based feature decoding and the occurrence of inter-stage matching inconsistency caused by stage-wise bipartite matching. To tackle these challenges, we present IGOFormer, a novel query-based oriented object detector that explicitly integrates intrinsic geometry into feature decoding and enhances inter-stage matching stability. Specifically, we design an Intrinsic Geometry-aware Decoder, which enhances the object-related features conditioned on an object query by injecting complementary geometric embeddings extrapolated from their correlations to capture the geometric layout of the object, thereby offering a critical geometric insight into its orientation. Meanwhile, a Momentum-based Bipartite Matching scheme is developed to adaptively aggregate historical matching costs by formulating an exponential moving average with query-specific smoothing factors, effectively preventing conflicting supervisory signals arising from inter-stage matching inconsistency. Extensive experiments and ablation studies demonstrate the superiority of our IGOFormer for aerial oriented object detection, achieving an AP$_{50}$ score of 78.00\% on DOTA-V1.0 using Swin-T backbone under the single-scale setting. The code will be made publicly available.
- Abstract(参考訳): 最近のクエリベースの検出器は目覚ましい進歩を遂げているが、特に限られたテクスチャ情報をキャプチャする小さなオブジェクトに対して、オブジェクトを任意の向きで扱う場合、その性能は依然として制限されている。
この制限は主に、画素ベースの特徴デコード中の固有幾何の未利用と、ステージワイドのバイパーティイトマッチングによるステージ間マッチングの不整合の発生に起因している。
これらの課題に対処するため、IGOFormerは、固有の幾何学を特徴デコードに明示的に統合し、ステージ間マッチング安定性を向上させる、新しいクエリベースのオブジェクト指向オブジェクト検出器である。
具体的には,オブジェクトの幾何学的レイアウトを捉えるために,オブジェクトの相関から外挿した補的幾何学的埋め込みを注入することにより,オブジェクトクエリに条件付けされたオブジェクトの関連性を高める固有幾何認識デコーダを設計する。
一方、MomentumベースのBipartite Matchingスキームは、指数的な移動平均をクエリ特異的な平滑化因子で定式化し、ステージ間マッチングの不整合に起因する競合する監視信号を防止することで、履歴マッチングコストを適応的に集約する。
広汎な実験とアブレーション研究により、単スケールでSwin-Tのバックボーンを用いたDOTA-V1.0上でのAP$_{50}$スコア78.00\%のIGOFormerの優位性が示された。
コードは公開されます。
関連論文リスト
- IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - BOOTPLACE: Bootstrapped Object Placement with Detection Transformers [23.300369070771836]
本稿では,オブジェクト配置を位置検出問題として定式化する新しいパラダイムであるBOOTPLACEを紹介する。
確立されたベンチマークの実験結果は、BOOTPLACEのオブジェクト再配置における優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-27T21:21:20Z) - OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。
これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。
従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文 参考訳(メタデータ) (2024-09-29T10:36:33Z) - DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection [57.08921921586688]
赤外可視物体検出は、赤外と可視画像の相補的な情報を活用することにより、堅牢な物体検出を実現することを目的としている。
相補的特徴を融合させることは困難であり、現在の手法では相補的条件下での両モードのオブジェクトを確実に見つけることはできない。
これらの問題に対処するための分離位置検出変換器を提案する。
DroneVehicleとKAISTデータセットの実験は、他の最先端の方法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-12T13:05:43Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - IMP: Iterative Matching and Pose Estimation with Adaptive Pooling [34.36397639248686]
我々はEIMPと呼ばれるテキストbfefficient IMPを提案し、潜在的に一致しないキーポイントを動的に破棄する。
YFCC100m、Scannet、Aachen Day-Nightのデータセットに対する実験により、提案手法は精度と効率の点で従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-28T13:25:50Z) - ARS-DETR: Aspect Ratio-Sensitive Detection Transformer for Aerial Oriented Object Detection [55.291579862817656]
既存のオブジェクト指向オブジェクト検出手法では、モデルの性能を測定するために計量AP$_50$が一般的である。
我々は、AP$_50$は本来、角度偏差に大きな耐性があるため、オブジェクト指向物体検出には適さないと主張している。
本稿では,ARS-DETR(Aspect Ratio Sensitive Oriented Object Detector with Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-09T02:20:56Z) - Phase-Shifting Coder: Predicting Accurate Orientation in Oriented Object
Detection [10.99534239215483]
物体の向きを正確に予測するために、位相シフトコーダ(PSC)と呼ばれる新しい微分可能な角度コーダを提案する。
オブジェクト指向物体検出における様々な周期的ファジィ問題に対する統一的なフレームワークを提供する。
3つのデータセットの視覚的分析と実験は、我々のアプローチの有効性と可能性を証明する。
論文 参考訳(メタデータ) (2022-11-11T17:31:25Z) - Attention-based Joint Detection of Object and Semantic Part [4.389917490809522]
我々のモデルは2つのFaster-RCNNモデルに基づいて作成され、それらの特徴を共有して両方の表現を拡張します。
PASCAL-Part 2010データセットの実験では、関節検出は物体検出と部分検出の両方を同時に改善できることが示された。
論文 参考訳(メタデータ) (2020-07-05T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。