論文の概要: Linking vision and motion for self-supervised object-centric perception
- arxiv url: http://arxiv.org/abs/2307.07147v1
- Date: Fri, 14 Jul 2023 04:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:01:46.942577
- Title: Linking vision and motion for self-supervised object-centric perception
- Title(参考訳): 自己教師対象中心知覚のためのリンク視覚と運動
- Authors: Kaylene C. Stocking, Zak Murez, Vijay Badrinarayanan, Jamie Shotton,
Alex Kendall, Claire Tomlin, Christopher P. Burgess
- Abstract要約: オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
- 参考スコア(独自算出の注目度): 16.821130222597155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-centric representations enable autonomous driving algorithms to reason
about interactions between many independent agents and scene features.
Traditionally these representations have been obtained via supervised learning,
but this decouples perception from the downstream driving task and could harm
generalization. In this work we adapt a self-supervised object-centric vision
model to perform object decomposition using only RGB video and the pose of the
vehicle as inputs. We demonstrate that our method obtains promising results on
the Waymo Open perception dataset. While object mask quality lags behind
supervised methods or alternatives that use more privileged information, we
find that our model is capable of learning a representation that fuses multiple
camera viewpoints over time and successfully tracks many vehicles and
pedestrians in the dataset. Code for our model is available at
https://github.com/wayveai/SOCS.
- Abstract(参考訳): オブジェクト中心の表現により、自律運転アルゴリズムは多くの独立したエージェントとシーンの特徴の間の相互作用を推論することができる。
伝統的にこれらの表現は教師付き学習によって得られるが、これは下流の運転タスクから知覚を分離し、一般化を損なう可能性がある。
本研究では、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを用いてオブジェクト分解を行う。
提案手法はWaymo Open認識データセット上で有望な結果が得られることを示す。
オブジェクトマスクの品質は、より特権的な情報を使用する監視方法や代替手段に遅れているが、我々のモデルは、時間とともに複数のカメラ視点を融合させる表現を学び、データセット内の多くの車両や歩行者を追跡することに成功した。
私たちのモデルのコードはhttps://github.com/wayveai/socsで利用可能です。
関連論文リスト
- Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - CarFormer: Self-Driving with Learned Object-Centric Representations [4.6058519836859135]
我々は、BEVシーケンス上のスロットアテンションモデルを用いて、オブジェクトをスロットに配置することを学ぶ。
これらのオブジェクト中心の表現に基づいて、トランスフォーマーを訓練し、運転を学び、他の車両の将来について推論する。
論文 参考訳(メタデータ) (2024-07-22T17:59:01Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z) - SoDA: Multi-Object Tracking with Soft Data Association [75.39833486073597]
マルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配備の前提条件である。
観測対象間の依存関係をエンコードするトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:40:25Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。