論文の概要: Perception for Autonomous Systems (PAZ)
- arxiv url: http://arxiv.org/abs/2010.14541v1
- Date: Tue, 27 Oct 2020 18:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:50:36.459391
- Title: Perception for Autonomous Systems (PAZ)
- Title(参考訳): 自律システム(PAZ)の認識
- Authors: Octavio Arriaga, Matias Valdenegro-Toro, Mohandass Muthuraja, Sushma
Devaramani, Frank Kirchner
- Abstract要約: Perception for Autonomous Systems (PAZ)は階層的な認識ライブラリであり、ユーザは複数のレベルの抽象化を操作できる。
これらの抽象化により、ユーザーは機械学習(ML)モデルの入力と出力の事前処理、データ拡張、予測、後処理に適用できる階層的なモジュラースキームで関数を構成することができる。
- 参考スコア(独自算出の注目度): 7.168750704705386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we introduce the Perception for Autonomous Systems (PAZ)
software library. PAZ is a hierarchical perception library that allow users to
manipulate multiple levels of abstraction in accordance to their requirements
or skill level. More specifically, PAZ is divided into three hierarchical
levels which we refer to as pipelines, processors, and backends. These
abstractions allows users to compose functions in a hierarchical modular scheme
that can be applied for preprocessing, data-augmentation, prediction and
postprocessing of inputs and outputs of machine learning (ML) models. PAZ uses
these abstractions to build reusable training and prediction pipelines for
multiple robot perception tasks such as: 2D keypoint estimation, 2D object
detection, 3D keypoint discovery, 6D pose estimation, emotion classification,
face recognition, instance segmentation, and attention mechanisms.
- Abstract(参考訳): 本稿では,PAZ(Perception for Autonomous Systems)ソフトウェアライブラリを紹介する。
PAZは階層的な認識ライブラリであり、ユーザーは要求やスキルレベルに応じて複数のレベルの抽象化を操作できる。
具体的には、PAZはパイプライン、プロセッサ、バックエンドと呼ばれる3つの階層レベルに分けられます。
これらの抽象化により、ユーザーは、機械学習(ml)モデルの入力および出力の事前処理、データ提供、予測および後処理に適用可能な階層的モジュラースキームで関数を構成できる。
PAZはこれらの抽象化を使用して、2Dキーポイント推定、2Dオブジェクト検出、3Dキーポイント発見、6Dポーズ推定、感情分類、顔認識、インスタンスセグメンテーション、アテンションメカニズムなどの複数のロボット認識タスクのための再利用可能なトレーニングと予測パイプラインを構築する。
関連論文リスト
- AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - An adaptive human-in-the-loop approach to emission detection of Additive
Manufacturing processes and active learning with computer vision [76.72662577101988]
In-situ monitoring and process control in Additive Manufacturing (AM) は大量の排出データを収集することを可能にする。
このデータは、3Dプリントされた部品の3Dおよび2D表現への入力として使用できる。
本研究の目的は,機械学習技術を用いた適応型ヒューマン・イン・ザ・ループ手法を提案することである。
論文 参考訳(メタデータ) (2022-12-12T15:11:18Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Learning Neuro-symbolic Programs for Language Guided Robot Manipulation [10.287265801542999]
自然言語命令と入力と出力シーンが与えられた場合、我々の目標は、操作プログラムを出力できるニューロシンボリックモデルを訓練することである。
i) トレーニング中に見られる以上の一般化を制限するが、密集したサブゴールの監督を必要とする概念に対して、手書きのシンボルに依存する。
我々のアプローチはニューロシンボリックであり、言語的および知覚的バリエーションを扱うことができ、中間的な監督を必要としないエンドツーエンドの差別化が可能であり、潜伏したニューラルオブジェクト中心の表現で機能するシンボリック推論構造を利用する。
論文 参考訳(メタデータ) (2022-11-12T12:31:17Z) - USEEK: Unsupervised SE(3)-Equivariant 3D Keypoints for Generalizable
Manipulation [19.423310410631085]
U.S.EEKは、カテゴリー内のインスタンス間のアライメントを楽しむ、教師なしSE(3)-同変キーポイント法である。
UEEKを手にすると、ロボットはカテゴリレベルのタスク関連オブジェクトフレームを効率的かつ説明可能な方法で推論することができる。
論文 参考訳(メタデータ) (2022-09-28T06:42:29Z) - A Unified Query-based Paradigm for Point Cloud Understanding [116.30071021894317]
本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。
入力は、任意の特徴抽出アーキテクチャで埋め込み段階でエンコードされる。
これは、クエリステージに中間表現、すなわちQ表現を導入して、埋め込みステージとタスクヘッドの間のブリッジとして機能させることによって達成される。
論文 参考訳(メタデータ) (2022-03-02T17:17:03Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。