論文の概要: End-to-end Learning Improves Static Object Geo-localization in Monocular
Video
- arxiv url: http://arxiv.org/abs/2004.05232v4
- Date: Sun, 3 Jan 2021 17:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 21:21:57.284560
- Title: End-to-end Learning Improves Static Object Geo-localization in Monocular
Video
- Title(参考訳): 終末学習によるモノクロ映像の静的物体位置定位の改善
- Authors: Mohamed Chaabane, Lionel Gueguen, Ameni Trabelsi, Ross Beveridge and
Stephen O'Hara
- Abstract要約: 本稿では,静的オブジェクトの局所化を改善するシステムについて,学習を通じてシステムのコンポーネントを協調的に最適化する。
本システムは,1つの画像からの5DoFオブジェクトのポーズ推定,2つのフレーム間のオブジェクトの関連付け,および3つのオブジェクトのトラッキングにより,シーン内の静的オブジェクトの最終的なジオローカライズを生成する。
- 参考スコア(独自算出の注目度): 1.9949261242626621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately estimating the position of static objects, such as traffic lights,
from the moving camera of a self-driving car is a challenging problem. In this
work, we present a system that improves the localization of static objects by
jointly-optimizing the components of the system via learning. Our system is
comprised of networks that perform: 1) 5DoF object pose estimation from a
single image, 2) association of objects between pairs of frames, and 3)
multi-object tracking to produce the final geo-localization of the static
objects within the scene. We evaluate our approach using a publicly-available
data set, focusing on traffic lights due to data availability. For each
component, we compare against contemporary alternatives and show
significantly-improved performance. We also show that the end-to-end system
performance is further improved via joint-training of the constituent models.
- Abstract(参考訳): 自動運転車の移動カメラから信号機などの静的物体の位置を正確に推定することは難しい課題である。
本稿では,学習を通じてシステムのコンポーネントを協調的に最適化することにより,静的オブジェクトの局在性を向上させるシステムを提案する。
私たちのシステムは ネットワークから成り立っています
1)1つの画像から5DoFオブジェクトのポーズ推定。
2)一対のフレーム間の物体の関連、及び
3) シーン内の静的オブジェクトの最終的なジオローカライズを生成するマルチオブジェクトトラッキング。
当社のアプローチは,公開可能なデータセットを用いて評価し,データの可用性に起因した信号に焦点をあてる。
各コンポーネントについて、現代の代替品と比較し、大幅な性能向上を示す。
また,構成モデルの合同学習により,エンド・ツー・エンドのシステム性能がさらに向上することを示す。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - UniQuadric: A SLAM Backend for Unknown Rigid Object 3D Tracking and
Light-Weight Modeling [7.626461564400769]
本稿では,エゴモーショントラッキング,剛体オブジェクトモーショントラッキング,モデリングを統一するSLAMバックエンドを提案する。
本システムは,複雑な動的シーンにおける物体知覚の潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-29T07:50:09Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - InterTrack: Interaction Transformer for 3D Multi-Object Tracking [9.283656931246645]
3Dマルチオブジェクトトラッキング(MOT)は、自動運転車にとって重要な問題である。
提案手法であるInterTrackは,データアソシエーションのための識別対象表現を生成する。
我々はnuScenes 3D MOTベンチマークのアプローチを検証する。
論文 参考訳(メタデータ) (2022-08-17T03:24:36Z) - DL-SLOT: Dynamic Lidar SLAM and Object Tracking Based On Graph
Optimization [2.889268075288957]
エゴ位置推定と動的物体追跡は、自律運転システムにおける2つの重要な問題である。
本稿では,動的Lidar SLAMとオブジェクト追跡手法であるDL-SLOTを提案する。
我々はこのフレームワークでSLAMとオブジェクトトラッキングを同時に実行し、高ダイナミックな道路シナリオにおけるSLAMの堅牢性と精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-02-23T11:22:43Z) - AirDOS: Dynamic SLAM benefits from Articulated Objects [9.045690662672659]
オブジェクト認識SLAM(DOS)は、動的環境におけるロバストな動き推定を可能にするためにオブジェクトレベル情報を利用する。
AirDOSは、動的な調音オブジェクトを組み込むことで、カメラのポーズ推定を改善することができることを示す最初の動的オブジェクト認識SLAMシステムである。
論文 参考訳(メタデータ) (2021-09-21T01:23:48Z) - Dynamic and Static Object Detection Considering Fusion Regions and
Point-wise Features [7.41540085468436]
本稿では,自動運転車の前方における静的・動的物体の検出手法を提案する。
われわれのアプローチは、検出された物体から、その位置、速度、方向などの他の特徴を得ることもできる。
提案手法の性能を示すために,ベンチマークデータセットと,自律プラットフォームから得られた実世界のデータを用いて評価する。
論文 参考訳(メタデータ) (2021-07-27T09:42:18Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。