論文の概要: Cross-Architecture Auxiliary Feature Space Translation for Efficient Few-Shot Personalized Object Detection
- arxiv url: http://arxiv.org/abs/2407.01193v1
- Date: Mon, 1 Jul 2024 11:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:49:58.241120
- Title: Cross-Architecture Auxiliary Feature Space Translation for Efficient Few-Shot Personalized Object Detection
- Title(参考訳): 効率的なFew-Shotパーソナライズされたオブジェクト検出のためのクロスアーキテクチャ補助的特徴空間変換
- Authors: Francesco Barbato, Umberto Michieli, Jijoong Moon, Pietro Zanuttigh, Mete Ozay,
- Abstract要約: 我々はAuXFTと呼ばれるインスタンスレベルのパーソナライズされたオブジェクト検出戦略を提案する。
その結果,AuXFTは推定時間のわずか32%で上界80%に到達した。
我々は、IPODタスク用に設計された3つの公開データセットと1つの社内ベンチマークでAuXFTを検証する。
- 参考スコア(独自算出の注目度): 28.06000586370357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen object detection robotic systems deployed in several personal devices (e.g., home robots and appliances). This has highlighted a challenge in their design, i.e., they cannot efficiently update their knowledge to distinguish between general classes and user-specific instances (e.g., a dog vs. user's dog). We refer to this challenging task as Instance-level Personalized Object Detection (IPOD). The personalization task requires many samples for model tuning and optimization in a centralized server, raising privacy concerns. An alternative is provided by approaches based on recent large-scale Foundation Models, but their compute costs preclude on-device applications. In our work we tackle both problems at the same time, designing a Few-Shot IPOD strategy called AuXFT. We introduce a conditional coarse-to-fine few-shot learner to refine the coarse predictions made by an efficient object detector, showing that using an off-the-shelf model leads to poor personalization due to neural collapse. Therefore, we introduce a Translator block that generates an auxiliary feature space where features generated by a self-supervised model (e.g., DINOv2) are distilled without impacting the performance of the detector. We validate AuXFT on three publicly available datasets and one in-house benchmark designed for the IPOD task, achieving remarkable gains in all considered scenarios with excellent time-complexity trade-off: AuXFT reaches a performance of 80% its upper bound at just 32% of the inference time, 13% of VRAM and 19% of the model size.
- Abstract(参考訳): 近年、オブジェクト検出ロボットシステムはいくつかのパーソナルデバイス(ホームロボットや家電など)にデプロイされている。
これは、一般的なクラスとユーザ固有のインスタンス(例えば、犬とユーザの犬)を区別するために、知識を効率的に更新することはできない、という彼らの設計上の課題を強調している。
本稿では、この課題をインスタンスレベルのパーソナライズされたオブジェクト検出(IPOD)と呼ぶ。
パーソナライゼーションタスクは、集中型サーバにおけるモデルチューニングと最適化のための多くのサンプルを必要とし、プライバシー上の懸念を提起する。
最近の大規模ファンデーションモデルに基づくアプローチによって別の方法が提供されるが、その計算コストはデバイス上のアプリケーションを妨げる。
当社では同時に,AuXFTというFew-ShotIPOD戦略を設計しています。
本研究では, 物体検出器の粗い予測を改良するために, 条件付き粗い数ショット学習装置を導入し, 市販モデルを用いることで, 神経崩壊によるパーソナライゼーションの低下が示唆された。
そこで本研究では,自己教師型モデル(eg, DINOv2)によって生成された特徴を検出器の性能に影響を与えることなく蒸留する,補助的特徴空間を生成するトランスレータブロックを提案する。
AuXFTは、推論時間のわずか32%、VRAMの13%、モデルサイズの19%で、上限の80%のパフォーマンスに達した。
関連論文リスト
- OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - Scale-Invariant Feature Disentanglement via Adversarial Learning for UAV-based Object Detection [18.11107031800982]
本稿では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。
3つのベンチマークデータセット上で、最先端の3つの軽量検出フレームワークに適用する。
論文 参考訳(メタデータ) (2024-05-24T11:40:22Z) - ESOD:Edge-based Task Scheduling for Object Detection [8.347247774167109]
オブジェクト検出のための新しいエッジベースタスクスケジューリングフレームワーク(ESOD)を提案する。
その結果、ESODは平均22.13%と29.60%の遅延とエネルギー消費を削減できることがわかった。
論文 参考訳(メタデータ) (2021-10-20T13:43:51Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Analysis of voxel-based 3D object detection methods efficiency for
real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。
実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。
この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文 参考訳(メタデータ) (2021-05-21T12:40:59Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z) - It's always personal: Using Early Exits for Efficient On-Device CNN
Personalisation [19.046126301352274]
強力なハードウェアとモデル圧縮技術が利用可能になったことにより、デバイス上での機械学習が現実化しつつある。
本研究では、より小さなパーソナライズされたモデルを用いて特定のシナリオに適合させることを観察する。
PershonEPEEは、初期出口をモデルにアタッチし、デバイス上でパーソナライズするフレームワークである。
論文 参考訳(メタデータ) (2021-02-02T09:10:17Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - SensiX: A Platform for Collaborative Machine Learning on the Edge [69.1412199244903]
センサデータとセンサモデルの間に留まるパーソナルエッジプラットフォームであるSensiXを紹介する。
動作および音声に基づくマルチデバイスセンシングシステムの開発において,その有効性を示す。
評価の結果,SensiXは3mWのオーバヘッドを犠牲にして,全体の精度が7~13%向上し,環境のダイナミクスが最大30%向上することがわかった。
論文 参考訳(メタデータ) (2020-12-04T23:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。