論文の概要: Perception for Autonomous Systems (PAZ)
- arxiv url: http://arxiv.org/abs/2010.14541v1
- Date: Tue, 27 Oct 2020 18:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:50:36.459391
- Title: Perception for Autonomous Systems (PAZ)
- Title(参考訳): 自律システム(PAZ)の認識
- Authors: Octavio Arriaga, Matias Valdenegro-Toro, Mohandass Muthuraja, Sushma
Devaramani, Frank Kirchner
- Abstract要約: Perception for Autonomous Systems (PAZ)は階層的な認識ライブラリであり、ユーザは複数のレベルの抽象化を操作できる。
これらの抽象化により、ユーザーは機械学習(ML)モデルの入力と出力の事前処理、データ拡張、予測、後処理に適用できる階層的なモジュラースキームで関数を構成することができる。
- 参考スコア(独自算出の注目度): 7.168750704705386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we introduce the Perception for Autonomous Systems (PAZ)
software library. PAZ is a hierarchical perception library that allow users to
manipulate multiple levels of abstraction in accordance to their requirements
or skill level. More specifically, PAZ is divided into three hierarchical
levels which we refer to as pipelines, processors, and backends. These
abstractions allows users to compose functions in a hierarchical modular scheme
that can be applied for preprocessing, data-augmentation, prediction and
postprocessing of inputs and outputs of machine learning (ML) models. PAZ uses
these abstractions to build reusable training and prediction pipelines for
multiple robot perception tasks such as: 2D keypoint estimation, 2D object
detection, 3D keypoint discovery, 6D pose estimation, emotion classification,
face recognition, instance segmentation, and attention mechanisms.
- Abstract(参考訳): 本稿では,PAZ(Perception for Autonomous Systems)ソフトウェアライブラリを紹介する。
PAZは階層的な認識ライブラリであり、ユーザーは要求やスキルレベルに応じて複数のレベルの抽象化を操作できる。
具体的には、PAZはパイプライン、プロセッサ、バックエンドと呼ばれる3つの階層レベルに分けられます。
これらの抽象化により、ユーザーは、機械学習(ml)モデルの入力および出力の事前処理、データ提供、予測および後処理に適用可能な階層的モジュラースキームで関数を構成できる。
PAZはこれらの抽象化を使用して、2Dキーポイント推定、2Dオブジェクト検出、3Dキーポイント発見、6Dポーズ推定、感情分類、顔認識、インスタンスセグメンテーション、アテンションメカニズムなどの複数のロボット認識タスクのための再利用可能なトレーニングと予測パイプラインを構築する。
関連論文リスト
- Self-supervised cross-modality learning for uncertainty-aware object detection and recognition in applications which lack pre-labelled training data [6.892494758401737]
我々は、不確実性を認識したディープニューラルネットワークが2次元RGB画像中の物体を検出し、認識し、ローカライズするためにどのように訓練されるかを示す。
本手法は,ラベル付きデータセットが一般に利用できない,多くの重要な産業タスクに適用可能である。
論文 参考訳(メタデータ) (2024-11-05T13:26:31Z) - Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - DORec: Decomposed Object Reconstruction and Segmentation Utilizing 2D Self-Supervised Features [33.04128557550782]
ニューラル暗黙表現に基づく分解対象再構成ネットワークを提案する。
私たちのキーとなるアイデアは、2次元の自己監督機能を使って、前景領域の2次元マスクと、意味的に類似した領域のKクラスターマスクという2つのレベルのマスクを作成することです。
異なるデータセットに対する実験結果は、ポーズ推定などの下流タスクを可能にする様々な背景から、DORecが様々な前景オブジェクトのセグメンテーションと再構成に優れていることを示している。
論文 参考訳(メタデータ) (2023-10-17T09:21:29Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - A Unified Query-based Paradigm for Point Cloud Understanding [116.30071021894317]
本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。
入力は、任意の特徴抽出アーキテクチャで埋め込み段階でエンコードされる。
これは、クエリステージに中間表現、すなわちQ表現を導入して、埋め込みステージとタスクヘッドの間のブリッジとして機能させることによって達成される。
論文 参考訳(メタデータ) (2022-03-02T17:17:03Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。