論文の概要: VGQ-CNN: Moving Beyond Fixed Cameras and Top-Grasps for Grasp Quality
Prediction
- arxiv url: http://arxiv.org/abs/2203.04874v1
- Date: Wed, 9 Mar 2022 16:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:10:59.567257
- Title: VGQ-CNN: Moving Beyond Fixed Cameras and Top-Grasps for Grasp Quality
Prediction
- Title(参考訳): VGQ-CNN: グレープ品質予測のための固定カメラとトップグラスを超えて
- Authors: A. Konrad, J. McDonald, R. Villing
- Abstract要約: VGQ-CNNは6-DOFグリップのためのグリップ品質予測ネットワークである。
広い範囲のカメラポーズや移動ロボットから見える物体の把握を評価できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Versatile Grasp Quality Convolutional Neural Network
(VGQ-CNN), a grasp quality prediction network for 6-DOF grasps. VGQ-CNN can be
used when evaluating grasps for objects seen from a wide range of camera poses
or mobile robots without the need to retrain the network. By defining the grasp
orientation explicitly as an input to the network, VGQ-CNN can evaluate 6-DOF
grasp poses, moving beyond the 4-DOF grasps used in most image-based grasp
evaluation methods like GQ-CNN. We train VGQ-CNN on our new Versatile Grasp
dataset (VG-dset), containing 6-DOF grasps observed from a wide range of camera
poses. VGQ-CNN achieves a balanced accuracy of 82.1% on our test-split while
generalising to a variety of camera poses. Meanwhile, it achieves competitive
performance for overhead cameras and top-grasps with a balanced accuracy of
74.2% compared to GQ-CNN's 76.6%. We also propose a modified network
architecture, FAST-VGQ-CNN, that speeds up inference using a shared encoder
architecture and can make 128 grasp quality predictions in 12ms on a CPU. Code
and data are available at https://figshare.com/s/b12b37b14b747b10524e.
- Abstract(参考訳): 本稿では、6-DOFグリップのためのグリップ品質予測ネットワークであるVersatile Grasp Quality Convolutional Neural Network (VGQ-CNN)を提案する。
VGQ-CNNは、ネットワークを再トレーニングすることなく、広い範囲のカメラポーズや移動ロボットから見える物体の把握を評価する際に使用できる。
ネットワークへの入力としてグリップ方向を明示的に定義することにより、VGQ-CNNは、GQ-CNNのような画像ベースグリップ評価手法で使用される4-DOFグリップを超えて、6-DOFグリップポーズを評価することができる。
我々は、VGQ-CNNを新しいVersatile Graspデータセット(VG-dset)でトレーニングし、幅広いカメラポーズから観察された6-DOFのグリップを含む。
VGQ-CNNは、様々なカメラポーズに一般化しながら、テストスプリットで82.1%のバランス精度を達成する。
一方、gq-cnnの76.6%に対して、オーバーヘッドカメラとトップグラップの競合性能は74.2%である。
また,共有エンコーダアーキテクチャを用いて推論を高速化し,CPU上で12msで128個の品質予測を行うネットワークアーキテクチャであるFAST-VGQ-CNNを提案する。
コードとデータはhttps://figshare.com/s/b12b37b14b747b10524eで入手できる。
関連論文リスト
- Impact of Data Augmentation on QCNNs [1.1510009152620664]
量子畳み込みニューラルネットワーク(QCNN)は,量子機構を用いてCNNの新たな一般化として提案される。
本稿では,CNN と QCNN を比較し,一般的に使用されている3つのデータセットの損失と予測精度をテストする。
論文 参考訳(メタデータ) (2023-12-01T05:28:19Z) - Development of a Novel Quantum Pre-processing Filter to Improve Image
Classification Accuracy of Neural Network Models [1.2965700352825555]
本稿では,ニューラルネットワーク(NN)モデルの画像分類精度を向上させるために,新しい量子前処理フィルタ(QPF)を提案する。
その結果,MNIST (手書き10桁) とEMNIST (手書き47桁と文字) のデータセットに基づく画像分類精度を向上させることができた。
しかし,43種類の実生活交通標識画像を用いた比較的複雑なGTSRBデータセットに対するQPF手法による検証の結果,分類精度の低下が認められた。
論文 参考訳(メタデータ) (2023-08-22T01:27:04Z) - High-Resolution Convolutional Neural Networks on Homomorphically
Encrypted Data via Sharding Ciphertexts [0.08999666725996974]
我々は,1つの暗号文に格納できる範囲を超えて,大きな次元と多数のチャネルを持つ画像上でDCNNを評価する手法を拡張した。
トレーニングプロセス中に既存のDCNNモデルがどのように正規化され、効率と精度をさらに向上するかを示す。
これらの手法を用いて、高解像度のImageNetデータセット上で高い精度でDCNNを均質に評価し、80.2%の精度でトップ1の精度を達成する。
論文 参考訳(メタデータ) (2023-06-15T15:16:16Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - GHN-Q: Parameter Prediction for Unseen Quantized Convolutional
Architectures via Graph Hypernetworks [80.29667394618625]
我々は,未知の量子化CNNアーキテクチャのパラメータの予測にグラフハイパーネットを用いることを初めて検討した。
我々は、CNNの探索空間の縮小に着目し、GHN-Qが実際に8ビットの量子化されたCNNの量子化-ロバストパラメータを予測できることを見出した。
論文 参考訳(メタデータ) (2022-08-26T08:00:02Z) - Fully Spiking Variational Autoencoder [66.58310094608002]
スパイキングニューラルネットワーク(SNN)は、超高速で超低エネルギー消費のニューロモルフィックデバイス上で動作することができる。
本研究では,SNNを用いた可変オートエンコーダ(VAE)を構築し,画像生成を実現する。
論文 参考訳(メタデータ) (2021-09-26T06:10:14Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Crossed-Time Delay Neural Network for Speaker Recognition [5.216353911330589]
我々は,現在のTDNNの性能を高めるために,新しい構造であるCrossed-Time Delay Neural Network (CTDNN)を導入する。
提案したCTDNNは,話者認証タスクと識別タスクの両方において,元のTDNNよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-31T06:57:34Z) - Partial Weight Adaptation for Robust DNN Inference [9.301756947410773]
異種入力に対応する適応型推論アーキテクチャであるGearNNを提案する。
GearNNは、歪みのないデータセットでトレーニングされたDNNに対して平均18.12%、Googleからの安定性トレーニングに対して4.84%の精度(mIoU)を改善する。
論文 参考訳(メタデータ) (2020-03-13T06:25:45Z) - Event-Based Angular Velocity Regression with Spiking Networks [51.145071093099396]
スパイキングニューラルネットワーク(SNN)は、数値ではなく時間スパイクとして伝達される情報を処理する。
本稿では,イベントカメラから与えられた事象の時間回帰問題を初めて提案する。
角速度回帰を行うためにSNNをうまく訓練できることが示される。
論文 参考訳(メタデータ) (2020-03-05T17:37:16Z) - Visual Commonsense R-CNN [102.5061122013483]
本稿では,新しい教師なし特徴表現学習手法であるVisual Commonsense Region-based Convolutional Neural Network (VC R-CNN)を提案する。
VC R-CNNは、キャプションやVQAのような高レベルのタスクのための改善された視覚領域エンコーダとして機能する。
我々は、画像キャプション、VQA、VCRの3つの一般的なタスクのモデルにおいて、VC R-CNNの機能を広く適用し、それら全体で一貫したパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-27T15:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。