論文の概要: AnyDepth-DETR/-YOLO: Any-depth object detection with a single network
- arxiv url: http://arxiv.org/abs/2605.09407v1
- Date: Sun, 10 May 2026 08:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.232511
- Title: AnyDepth-DETR/-YOLO: Any-depth object detection with a single network
- Title(参考訳): AnyDepth-DETR/-YOLO:単一ネットワークによる任意の深度物体検出
- Authors: Woochul Kang, Hyungseop Lee, Jiho Lee,
- Abstract要約: 単一ネットワークを連続的な精度で適用可能な,奥行き検出フレームワークを提案する。
我々の全深度構成は、それぞれのSOTAベースラインと無視可能なパラメータオーバーヘッドに一致または超えます。
- 参考スコア(独自算出の注目度): 9.303501974597548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern object detectors are static, fixed-depth networks optimized for a single operating point, requiring separate models for different deployment scenarios. We present an any-depth detection framework that enables a single network to span a continuous range of accuracy--efficiency trade-offs by controlling depth at inference time without retraining. Each backbone and neck stage is divided into an essential path, which always executes, and a skippable refinement path; this decomposition preserves the full multi-scale feature hierarchy at every depth configuration, unlike conventional early exiting that discards entire stages. To train such a network, jointly optimizing many sub-networks of varying depth introduces conflicting gradient signals. We address this via self-distillation between only the two extremes, with prediction-level and feature-level alignment losses that enforce stage-wise modularity, ensuring the outputs of each stage remain compatible regardless of the paths taken. Instantiated on RT-DETR and YOLOv12, our full-depth configurations match or surpass their respective SOTA baselines with negligible parameter overhead, while the most efficient configurations achieve up to $1.82\times$ speedup at a cost of only 2.0 AP, all from a single set of weights.
- Abstract(参考訳): 現代のオブジェクト検出器は静的で、単一のオペレーションポイントに最適化された固定深度ネットワークであり、異なるデプロイシナリオに対して別々のモデルを必要とする。
本研究では,1つのネットワークが連続的な精度範囲にまたがる奥行き検出フレームワークを提案する。
各バックボーンとネックステージは、常に実行する必須パスと、スキップ可能な洗練パスに分けられる。この分解は、ステージ全体を破棄する従来のアーリーエグジットとは異なり、すべての深さ構成において、完全なマルチスケール特徴階層を保存する。
このようなネットワークをトレーニングするために、様々な深さのサブネットワークを協調的に最適化することは、競合する勾配信号をもたらす。
ここでは,2つの極点間の自己蒸留により,段階的モジュラリティを強制する予測レベルと特徴レベルのアライメント損失を発生させ,各ステージの出力がどの経路であっても相容れないことを保証する。
RT-DETR と YOLOv12 で実証された我々の全深度構成は、それぞれのSOTAベースラインを無視可能なパラメータオーバーヘッドで一致または超過する一方、最も効率的な構成は、2.0 AP のみのコストで最大 $1.82\times$ speedup を達成する。
関連論文リスト
- Any to Full: Prompting Depth Anything for Depth Completion in One Stage [23.09070498141459]
既存のRGBDフューズド・ディープ・コンプリート法は、トレーニングRGB分布と特定のディープ・パターンを併用した事前条件を学習する。
近年の取り組みでは、単分子深度推定モデルを活用して、領域一般幾何学的前提を導入する。
本稿では,1段階,ドメイン一般,パターンに依存しないフレームワークであるAny2Fullについて述べる。
論文 参考訳(メタデータ) (2026-03-05T22:08:40Z) - Bilateral Propagation Network for Depth Completion [41.163328523175466]
深度補正は,色画像の同期による疎深度測定から高密度深度マップを導出することを目的としている。
現在の最先端技術(SOTA)法は主に伝播に基づく手法であり、初期推定密度深さの反復精製として機能する。
本稿では, スパースデータの直接結合を避けるために, 早期に深度を伝播するバイラテラル伝搬ネットワーク(BP-Net)を提案する。
論文 参考訳(メタデータ) (2024-03-17T16:48:46Z) - Adaptive Depth Networks with Skippable Sub-Paths [1.8416014644193066]
本稿では,最小限のトレーニングを施した適応深度ネットワークへの実践的アプローチを提案する。
当社のアプローチは,すべてのターゲットサブネットワークを反復的にトレーニングするものではない。
提案手法が全体的な予測誤差を低減できる理由を, 公式な根拠として提示する。
論文 参考訳(メタデータ) (2023-12-27T03:43:38Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Non-local Recurrent Regularization Networks for Multi-view Stereo [108.17325696835542]
深層多視点ステレオネットワークでは、正確な深さ推定を実現するためにコスト正規化が不可欠である。
NR2-Netと呼ばれるマルチビューステレオのための新しい非局所リカレント正規化ネットワークを提案する。
提案手法は,DTU,タンク,テンプルの双方のデータセットに対して,最先端の再構築結果を実現する。
論文 参考訳(メタデータ) (2021-10-13T01:43:54Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。