論文の概要: Monocular Per-Object Distance Estimation with Masked Object Modeling
- arxiv url: http://arxiv.org/abs/2401.03191v2
- Date: Tue, 04 Feb 2025 16:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:54:50.225887
- Title: Monocular Per-Object Distance Estimation with Masked Object Modeling
- Title(参考訳): 被写体モデルを用いた単眼的物体間距離推定
- Authors: Aniello Panariello, Gianluca Mancusi, Fedy Haj Ali, Angelo Porrello, Simone Calderara, Rita Cucchiara,
- Abstract要約: 本稿では、Masked Image Modeling (MiM) からインスピレーションを得て、マルチオブジェクトタスクに拡張する。
Masked Object Modeling (MoM) と呼ばれる我々の戦略は、マスキング技術の新しい応用を可能にする。
我々は、標準KITTI、NuScenes、MOT Synthデータセット上の新しい参照アーキテクチャ(DistFormer)におけるMoMの有効性を評価する。
- 参考スコア(独自算出の注目度): 33.59920084936913
- License:
- Abstract: Per-object distance estimation is critical in surveillance and autonomous driving, where safety is crucial. While existing methods rely on geometric or deep supervised features, only a few attempts have been made to leverage self-supervised learning. In this respect, our paper draws inspiration from Masked Image Modeling (MiM) and extends it to multi-object tasks. While MiM focuses on extracting global image-level representations, it struggles with individual objects within the image. This is detrimental for distance estimation, as objects far away correspond to negligible portions of the image. Conversely, our strategy, termed Masked Object Modeling (MoM), enables a novel application of masking techniques. In a few words, we devise an auxiliary objective that reconstructs the portions of the image pertaining to the objects detected in the scene. The training phase is performed in a single unified stage, simultaneously optimizing the masking objective and the downstream loss (i.e., distance estimation). We evaluate the effectiveness of MoM on a novel reference architecture (DistFormer) on the standard KITTI, NuScenes, and MOTSynth datasets. Our evaluation reveals that our framework surpasses the SoTA and highlights its robust regularization properties. The MoM strategy enhances both zero-shot and few-shot capabilities, from synthetic to real domain. Finally, it furthers the robustness of the model in the presence of occluded or poorly detected objects. Code is available at https://github.com/apanariello4/DistFormer
- Abstract(参考訳): 物体ごとの距離推定は、安全が不可欠である監視と自律運転において重要である。
既存の手法は幾何学的あるいは深い教師付き特徴に依存しているが、自己教師付き学習を活用する試みはわずかである。
本稿では,Masked Image Modeling (MiM) からインスピレーションを得て,マルチオブジェクトタスクに拡張する。
MiMはグローバルな画像レベルの表現の抽出に重点を置いているが、画像内の個々のオブジェクトと苦労している。
これは、物体が画像の無視可能な部分に対応するため、距離推定にとって有害である。
逆に、我々の戦略であるMasked Object Modeling (MoM)はマスキング技術の新しい応用を可能にする。
一言で言えば、シーンで検出された物体に関連する画像の部分を再構成する補助的目的を考案する。
トレーニングフェーズは、マスク目標と下流損失(すなわち距離推定)を同時に最適化する単一の統一段階で行われる。
我々は、標準KITTI、NuScenes、MOTSynthデータセット上の新しい参照アーキテクチャ(DistFormer)におけるMoMの有効性を評価する。
評価の結果,我々のフレームワークはSoTAを超越し,ロバストな正規化特性を強調していることがわかった。
MoM戦略は、合成ドメインから実際のドメインまで、ゼロショット機能と少数ショット機能の両方を強化する。
最後に、隠蔽された、または不十分な検出対象の存在下でのモデルの堅牢性をさらに向上させる。
コードはhttps://github.com/apanariello4/DistFormerで入手できる。
関連論文リスト
- CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction [6.798515070856465]
表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。
Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
論文 参考訳(メタデータ) (2023-11-08T16:59:26Z) - UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with
Geometric Topology Guidance [6.577227592760559]
UnsMOTは、オブジェクトの外観と運動の特徴と幾何学的情報を組み合わせて、より正確なトラッキングを提供する新しいフレームワークである。
実験結果から, HOTA, IDF1, MOTAの計測値において, 最先端手法と比較して顕著な性能を示した。
論文 参考訳(メタデータ) (2023-09-03T04:58:12Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - DMODE: Differential Monocular Object Distance Estimation Module without Class Specific Information [8.552738832104101]
単分子距離推定のためのクラス非依存手法であるDMODEを提案する。
DMODEは、カメラの動きと時間とともにその大きさの変動を融合させることで、物体の距離を推定する。
我々は,TrackRCNN と EagerMOT からの出力と接点境界ボックスアノテーションを用いて,KITTI MOTS データセット上でのモデルを評価する。
論文 参考訳(メタデータ) (2022-10-23T02:06:56Z) - Object-wise Masked Autoencoders for Fast Pre-training [13.757095663704858]
現在のマスク付き画像符号化モデルは、単一のオブジェクト表現ではなく、シーン全体のすべてのオブジェクト間の基盤となる関係を学習することを示す。
興味のある領域マスクを用いて選択的な再構成を行うことで、オブジェクトの表現を学習するための非オブジェクトパッチをドロップする、新しいオブジェクト選択と分割戦略を導入する。
4つの一般的なデータセットの実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2022-05-28T05:13:45Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。