論文の概要: Explore Intrinsic Geometry for Query-based Tiny and Oriented Object Detector with Momentum-based Bipartite Matching
- arxiv url: http://arxiv.org/abs/2602.13728v1
- Date: Sat, 14 Feb 2026 11:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.363957
- Title: Explore Intrinsic Geometry for Query-based Tiny and Oriented Object Detector with Momentum-based Bipartite Matching
- Title(参考訳): モーメントベースバイパートイトマッチングを用いたクエリベースTinyおよびOriented Object Detectorの固有幾何探索
- Authors: Junpeng Zhang, Zewei Yang, Jie Feng, Yuhui Zheng, Ronghua Shang, Mengxuan Zhang,
- Abstract要約: IGOFormerは、固有の幾何学を特徴デコードに統合する、クエリベースのオブジェクト指向オブジェクト検出器である。
歴史的マッチングコストを適応的に集約するモメンタムベースのBipartite Matchingスキームを開発した。
航空機指向物体検出におけるIGOFormerの優位性を示す実験とアブレーション実験を行った。
- 参考スコア(独自算出の注目度): 29.566669515949155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent query-based detectors have achieved remarkable progress, yet their performance remains constrained when handling objects with arbitrary orientations, especially for tiny objects capturing limited texture information. This limitation primarily stems from the underutilization of intrinsic geometry during pixel-based feature decoding and the occurrence of inter-stage matching inconsistency caused by stage-wise bipartite matching. To tackle these challenges, we present IGOFormer, a novel query-based oriented object detector that explicitly integrates intrinsic geometry into feature decoding and enhances inter-stage matching stability. Specifically, we design an Intrinsic Geometry-aware Decoder, which enhances the object-related features conditioned on an object query by injecting complementary geometric embeddings extrapolated from their correlations to capture the geometric layout of the object, thereby offering a critical geometric insight into its orientation. Meanwhile, a Momentum-based Bipartite Matching scheme is developed to adaptively aggregate historical matching costs by formulating an exponential moving average with query-specific smoothing factors, effectively preventing conflicting supervisory signals arising from inter-stage matching inconsistency. Extensive experiments and ablation studies demonstrate the superiority of our IGOFormer for aerial oriented object detection, achieving an AP$_{50}$ score of 78.00\% on DOTA-V1.0 using Swin-T backbone under the single-scale setting. The code will be made publicly available.
- Abstract(参考訳): 最近のクエリベースの検出器は目覚ましい進歩を遂げているが、特に限られたテクスチャ情報をキャプチャする小さなオブジェクトに対して、オブジェクトを任意の向きで扱う場合、その性能は依然として制限されている。
この制限は主に、画素ベースの特徴デコード中の固有幾何の未利用と、ステージワイドのバイパーティイトマッチングによるステージ間マッチングの不整合の発生に起因している。
これらの課題に対処するため、IGOFormerは、固有の幾何学を特徴デコードに明示的に統合し、ステージ間マッチング安定性を向上させる、新しいクエリベースのオブジェクト指向オブジェクト検出器である。
具体的には,オブジェクトの幾何学的レイアウトを捉えるために,オブジェクトの相関から外挿した補的幾何学的埋め込みを注入することにより,オブジェクトクエリに条件付けされたオブジェクトの関連性を高める固有幾何認識デコーダを設計する。
一方、MomentumベースのBipartite Matchingスキームは、指数的な移動平均をクエリ特異的な平滑化因子で定式化し、ステージ間マッチングの不整合に起因する競合する監視信号を防止することで、履歴マッチングコストを適応的に集約する。
広汎な実験とアブレーション研究により、単スケールでSwin-Tのバックボーンを用いたDOTA-V1.0上でのAP$_{50}$スコア78.00\%のIGOFormerの優位性が示された。
コードは公開されます。
関連論文リスト
- Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。
これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。
従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文 参考訳(メタデータ) (2024-09-29T10:36:33Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - IMP: Iterative Matching and Pose Estimation with Adaptive Pooling [34.36397639248686]
我々はEIMPと呼ばれるテキストbfefficient IMPを提案し、潜在的に一致しないキーポイントを動的に破棄する。
YFCC100m、Scannet、Aachen Day-Nightのデータセットに対する実験により、提案手法は精度と効率の点で従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-28T13:25:50Z) - Phase-Shifting Coder: Predicting Accurate Orientation in Oriented Object
Detection [10.99534239215483]
物体の向きを正確に予測するために、位相シフトコーダ(PSC)と呼ばれる新しい微分可能な角度コーダを提案する。
オブジェクト指向物体検出における様々な周期的ファジィ問題に対する統一的なフレームワークを提供する。
3つのデータセットの視覚的分析と実験は、我々のアプローチの有効性と可能性を証明する。
論文 参考訳(メタデータ) (2022-11-11T17:31:25Z) - Attention-based Joint Detection of Object and Semantic Part [4.389917490809522]
我々のモデルは2つのFaster-RCNNモデルに基づいて作成され、それらの特徴を共有して両方の表現を拡張します。
PASCAL-Part 2010データセットの実験では、関節検出は物体検出と部分検出の両方を同時に改善できることが示された。
論文 参考訳(メタデータ) (2020-07-05T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。