論文の概要: DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation
- arxiv url: http://arxiv.org/abs/2401.03191v1
- Date: Sat, 6 Jan 2024 10:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:02:48.308001
- Title: DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation
- Title(参考訳): DistFormer: オブジェクト単位の単眼的距離推定のための局所的およびグローバル的特徴の強化
- Authors: Aniello Panariello and Gianluca Mancusi and Fedy Haj Ali and Angelo
Porrello and Simone Calderara and Rita Cucchiara
- Abstract要約: 物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。
既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。
私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
- 参考スコア(独自算出の注目度): 35.6022448037063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate per-object distance estimation is crucial in safety-critical
applications such as autonomous driving, surveillance, and robotics. Existing
approaches rely on two scales: local information (i.e., the bounding box
proportions) or global information, which encodes the semantics of the scene as
well as the spatial relations with neighboring objects. However, these
approaches may struggle with long-range objects and in the presence of strong
occlusions or unusual visual patterns. In this respect, our work aims to
strengthen both local and global cues. Our architecture -- named DistFormer --
builds upon three major components acting jointly: i) a robust context encoder
extracting fine-grained per-object representations; ii) a masked
encoder-decoder module exploiting self-supervision to promote the learning of
useful per-object features; iii) a global refinement module that aggregates
object representations and computes a joint, spatially-consistent estimation.
To evaluate the effectiveness of DistFormer, we conduct experiments on the
standard KITTI dataset and the large-scale NuScenes and MOTSynth datasets. Such
datasets cover various indoor/outdoor environments, changing weather
conditions, appearances, and camera viewpoints. Our comprehensive analysis
shows that DistFormer outperforms existing methods. Moreover, we further delve
into its generalization capabilities, showing its regularization benefits in
zero-shot synth-to-real transfer.
- Abstract(参考訳): オブジェクトごとの正確な距離推定は、自動運転、監視、ロボット工学などの安全クリティカルな応用において不可欠である。
既存のアプローチでは、ローカル情報(バウンディングボックス比例)とグローバル情報という2つのスケールに依存しており、これはシーンの意味と隣り合うオブジェクトとの空間関係をエンコードしている。
しかし、これらのアプローチは長距離物体や強い閉塞や異常な視覚パターンの存在に苦しむ可能性がある。
この点に関して、我々の研究は地域的およびグローバル的な手掛かりを強化することを目的としています。
DistFormerという名前の私たちのアーキテクチャは、3つの主要なコンポーネントを共同で動作させます。
一 オブジェクトごとの細かな表現を抽出するロバストなコンテキストエンコーダ
二 自己超越を利用して有用物ごとの特徴の学習を促進するマスク付きエンコーダデコーダモジュール
三 オブジェクト表現を集約し、共同で空間的に整合性のある推定を計算するグローバルリファインメントモジュール
DistFormerの有効性を評価するため,標準KITTIデータセットと大規模NuScenesおよびMOTSynthデータセットを用いて実験を行った。
このようなデータセットは、さまざまな屋内/屋外環境、天候条件の変化、外観、カメラ視点をカバーする。
総合分析の結果, distformerは既存の手法よりも優れていることがわかった。
さらに,その一般化能力をさらに精査し,ゼロショット合成から実写への転送における正規化の利点を示す。
関連論文リスト
- CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction [6.798515070856465]
表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。
Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
論文 参考訳(メタデータ) (2023-11-08T16:59:26Z) - UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with
Geometric Topology Guidance [6.577227592760559]
UnsMOTは、オブジェクトの外観と運動の特徴と幾何学的情報を組み合わせて、より正確なトラッキングを提供する新しいフレームワークである。
実験結果から, HOTA, IDF1, MOTAの計測値において, 最先端手法と比較して顕著な性能を示した。
論文 参考訳(メタデータ) (2023-09-03T04:58:12Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - DMODE: Differential Monocular Object Distance Estimation Module without Class Specific Information [8.552738832104101]
単分子距離推定のためのクラス非依存手法であるDMODEを提案する。
DMODEは、カメラの動きと時間とともにその大きさの変動を融合させることで、物体の距離を推定する。
我々は,TrackRCNN と EagerMOT からの出力と接点境界ボックスアノテーションを用いて,KITTI MOTS データセット上でのモデルを評価する。
論文 参考訳(メタデータ) (2022-10-23T02:06:56Z) - Object-wise Masked Autoencoders for Fast Pre-training [13.757095663704858]
現在のマスク付き画像符号化モデルは、単一のオブジェクト表現ではなく、シーン全体のすべてのオブジェクト間の基盤となる関係を学習することを示す。
興味のある領域マスクを用いて選択的な再構成を行うことで、オブジェクトの表現を学習するための非オブジェクトパッチをドロップする、新しいオブジェクト選択と分割戦略を導入する。
4つの一般的なデータセットの実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2022-05-28T05:13:45Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。