論文の概要: Improving Robotic Grasping on Monocular Images Via Multi-Task Learning
and Positional Loss
- arxiv url: http://arxiv.org/abs/2011.02888v1
- Date: Thu, 5 Nov 2020 14:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:42:05.561027
- Title: Improving Robotic Grasping on Monocular Images Via Multi-Task Learning
and Positional Loss
- Title(参考訳): マルチタスク学習と位置損失による単眼画像のロボット把持の改善
- Authors: William Prew, Toby Breckon, Magnus Bordewich, Ulrik Beierholm
- Abstract要約: モノクルカラー画像からリアルタイム物体把握性能を向上させる2つの方法を提案する。
1つ目は、モデルトレーニング中の補助的なタスクの追加(マルチタスク学習)である。
2つ目は、二次パラメータに対する画素当たりの損失を強調する位置損失関数の導入である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce two methods of improving real-time object
grasping performance from monocular colour images in an end-to-end CNN
architecture. The first is the addition of an auxiliary task during model
training (multi-task learning). Our multi-task CNN model improves grasping
performance from a baseline average of 72.04% to 78.14% on the large Jacquard
grasping dataset when performing a supplementary depth reconstruction task. The
second is introducing a positional loss function that emphasises loss per pixel
for secondary parameters (gripper angle and width) only on points of an object
where a successful grasp can take place. This increases performance from a
baseline average of 72.04% to 78.92% as well as reducing the number of training
epochs required. These methods can be also performed in tandem resulting in a
further performance increase to 79.12% while maintaining sufficient inference
speed to afford real-time grasp processing.
- Abstract(参考訳): 本稿では,エンドツーエンドCNNアーキテクチャにおける単色画像からリアルタイム物体把握性能を向上する2つの手法を提案する。
1つは、モデルトレーニング(マルチタスク学習)中に補助タスクを追加することです。
このマルチタスクcnnモデルは,補足的奥行き復元タスクを行う際に,ジャカード把持データセットのベースライン平均値が72.04%から78.14%に向上する。
2つめは、第2のパラメータ(グリッパー角度と幅)に対してピクセル当たりの損失を強調した位置損失関数を導入することである。
これにより、ベースライン平均72.04%から78.92%にパフォーマンスが向上し、必要なトレーニングエポックの数を削減できる。
これらの手法はタンデムでも実行でき、パフォーマンスは79.12%向上し、リアルタイムグリップ処理に十分な推論速度を維持した。
関連論文リスト
- Effective Whole-body Pose Estimation with Two-stages Distillation [52.92064408970796]
全体ポーズ推定は、画像内の人体、手、顔、足のキーポイントをローカライズする。
textbfWhole-body textbfPose 推定器の2段階ポーズ textbfDistillation を提案し,その有効性と効率性について検討した。
論文 参考訳(メタデータ) (2023-07-29T03:49:28Z) - Deep Residual Axial Networks [1.370633147306388]
本稿では,空間的2次元畳み込み操作を2つの連続的に分離可能な1次元操作に置き換える,新しいアーキテクチャである軸CNNを提案する。
残留軸ネットワーク(RAN)は77%,86%,75%,34%のパラメータで少なくとも1%高い性能を示した。
論文 参考訳(メタデータ) (2023-01-11T18:36:54Z) - Improving Visual Representation Learning through Perceptual
Understanding [0.0]
本稿では,より高度なシーンレベルの特徴の学習を明示的に奨励することにより,モデルによって学習された表現を改善するマスク付きオートエンコーダ(MAE)の拡張を提案する。
我々はImageNet-1Kで78.1%の精度で線形探索を行い、微調整時に88.1%の精度を達成し、他の下流タスクも同様の結果を得た。
論文 参考訳(メタデータ) (2022-12-30T00:59:46Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - Space-Time Crop & Attend: Improving Cross-modal Video Representation
Learning [88.71867887257274]
トリミングのような空間拡張はビデオでもうまく機能するが、以前の実装ではうまく機能するのに十分な規模でこれを行うことができなかった。
そこで本研究ではまず,このような拡張をより効率的にシミュレートする手法であるFeature Cropについて紹介する。
第2に,ナイーブ平均プーリングとは対照的に,変圧器に基づく注意性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-03-18T12:32:24Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - Ensembles of Deep Neural Networks for Action Recognition in Still Images [3.7900158137749336]
本稿では,大量のラベル付き行動認識データセットの欠如に対処するための伝達学習手法を提案する。
フレームワークには8つのトレーニング済みのCNNも使用して、Stanford 40データセットのパフォーマンスを調査しています。
我々の手法の最良の設定は、スタンフォード40データセットで93.17$%の精度を達成することができる。
論文 参考訳(メタデータ) (2020-03-22T13:44:09Z) - BP-DIP: A Backprojection based Deep Image Prior [49.375539602228415]
画像復元手法として, (i)Deep Image Prior (DIP) と (ii) バックプロジェクション (BP) の2つの手法を提案する。
提案手法はBP-DIP(BP-DIP)と呼ばれ,高いPSNR値とより優れた推論実行時間を持つ通常のDIPよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-11T17:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。