論文の概要: Learning to Switch CNNs with Model Agnostic Meta Learning for Fine
Precision Visual Servoing
- arxiv url: http://arxiv.org/abs/2007.04645v1
- Date: Thu, 9 Jul 2020 08:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 05:11:28.674067
- Title: Learning to Switch CNNs with Model Agnostic Meta Learning for Fine
Precision Visual Servoing
- Title(参考訳): 精密視覚サーボのためのモデル非依存メタ学習によるcnn切替学習
- Authors: Prem Raj, Vinay P. Namboodiri and L. Behera
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、ラベル付き画像ペアデータから相対的なカメラポーズ推定に成功している。
モデル非依存メタ学習(MAML)アルゴリズムに基づく効率的なスイッチング戦略を提案する。
提案手法は、ストレージと実行時のオーバーヘッドがほとんど無視されるのに対して、単純なアプローチよりもはるかに優れている。
- 参考スコア(独自算出の注目度): 22.713084727838115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) have been successfully applied for
relative camera pose estimation from labeled image-pair data, without requiring
any hand-engineered features, camera intrinsic parameters or depth information.
The trained CNN can be utilized for performing pose based visual servo control
(PBVS). One of the ways to improve the quality of visual servo output is to
improve the accuracy of the CNN for estimating the relative pose estimation.
With a given state-of-the-art CNN for relative pose regression, how can we
achieve an improved performance for visual servo control? In this paper, we
explore switching of CNNs to improve the precision of visual servo control. The
idea of switching a CNN is due to the fact that the dataset for training a
relative camera pose regressor for visual servo control must contain variations
in relative pose ranging from a very small scale to eventually a larger scale.
We found that, training two different instances of the CNN, one for
large-scale-displacements (LSD) and another for small-scale-displacements (SSD)
and switching them during the visual servo execution yields better results than
training a single CNN with the combined LSD+SSD data. However, it causes extra
storage overhead and switching decision is taken by a manually set threshold
which may not be optimal for all the scenes. To eliminate these drawbacks, we
propose an efficient switching strategy based on model agnostic meta learning
(MAML) algorithm. In this, a single model is trained to learn parameters which
are simultaneously good for multiple tasks, namely a binary classification for
switching decision, a 6DOF pose regression for LSD data and also a 6DOF pose
regression for SSD data. The proposed approach performs far better than the
naive approach, while storage and run-time overheads are almost negligible.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は、手作業による特徴やカメラ固有のパラメータ、深度情報を必要としない、ラベル付きイメージペアデータからの相対的なカメラポーズ推定に成功している。
トレーニングされたCNNは、ポーズベースのビジュアルサーボ制御(PBVS)を実行するために使用できる。
視覚サーボ出力の品質を向上させる方法の1つは、相対ポーズ推定のためのcnnの精度を向上させることである。
相対的ポーズ回帰のための与えられた最先端CNNでは、視覚サーボ制御の性能向上をどうやって達成できるのか?
本稿では,視覚サーボ制御の精度を向上させるために,CNNの切り替えを検討する。
cnnを切り替えるという考えは、視覚サーボ制御のための相対カメラポーズレグレッサーを訓練するためのデータセットが、非常に小さなスケールから、最終的には大きなスケールまで、相対姿勢のバリエーションを含む必要があるためである。
cnnの2つの異なるインスタンスをトレーニングすると、lsd(large-scale-displacements)とssd(small-scale-displacements)の2つが、視覚サーボ実行中にそれらを切り替えることで、単一のcnnをlsd+ssdデータでトレーニングするよりも優れた結果が得られることがわかった。
しかし、追加のストレージオーバヘッドが発生し、手動で設定したしきい値によってスイッチング決定が行われるため、すべてのシーンで最適ではない可能性がある。
これらの欠点を解消するために,モデル非依存メタ学習(MAML)アルゴリズムに基づく効率的なスイッチング戦略を提案する。
このモデルでは、複数のタスクに同時に適するパラメータ、すなわちスイッチング決定のためのバイナリ分類、LSDデータに対する6DOFポーズ回帰、SSDデータに対する6DOFポーズ回帰を学習するために、単一のモデルを訓練する。
提案手法は、ストレージと実行時のオーバーヘッドがほとんど無視されるのに対して、単純なアプローチよりもはるかに優れている。
関連論文リスト
- Single image calibration using knowledge distillation approaches [1.7205106391379026]
カメラパラメータを自動的に推定するCNNアーキテクチャを構築した。
我々は、新しいデータ配信のためのネットワークを更新する際に、知識を保存するために4つの一般的な漸進学習戦略を適用した。
実験結果は, カメラキャリブレーションのキャリブレーション推定において, いずれの手法が優れているかが示唆された。
論文 参考訳(メタデータ) (2022-12-05T15:59:35Z) - A Lightweight Domain Adaptive Absolute Pose Regressor Using Barlow Twins
Objective [0.6193838300896449]
本稿では,絶対ポーズ回帰のためのドメイン適応型トレーニングフレームワークを提案する。
提案フレームワークでは,並列ブランチの訓練に生成手法を用いて,シーンイメージを異なる領域に拡張する。
その結果、約24倍のFLOP、12倍のアクティベーション、MS-Transformerの5倍のパラメータを使用しても、我々のアプローチはCNNベースのアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2022-11-20T12:18:53Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data
Augmentation and Deep Ensemble Learning [2.1446056201053185]
我々は最近のSOTA(State-of-the-art)3D CNNの広範なベンチマークを提案し、データ拡張と深層アンサンブル学習の利点も評価した。
年齢予測,性別分類,統合失調症診断の3つの課題について,N=10kスキャンを含む多地点の脳解剖学的MRIデータセットを用いて実験を行った。
その結果,VBM画像の予測精度は擬似RAWデータよりも有意に向上した。
DenseNetとSmall-DenseNetは、私たちが提案したより軽量なバージョンで、すべてのデータレシエーションのパフォーマンスにおいて優れた妥協を提供する。
論文 参考訳(メタデータ) (2021-06-02T13:00:35Z) - BreakingBED -- Breaking Binary and Efficient Deep Neural Networks by
Adversarial Attacks [65.2021953284622]
CNNのホワイトボックス攻撃やブラックボックス攻撃に対する堅牢性について検討する。
結果は、蒸留されたCNN、エージェントベースの最新のprunedモデル、およびバイナライズニューラルネットワークのために示されています。
論文 参考訳(メタデータ) (2021-03-14T20:43:19Z) - Fixed-point Quantization of Convolutional Neural Networks for Quantized
Inference on Embedded Platforms [0.9954382983583577]
本稿では,事前学習したCNNの各レイヤの重み,バイアス,アクティベーションを最適に定量化する手法を提案する。
このプロセスでは、パラメータの層単位での量子化が大いに役立ちます。
論文 参考訳(メタデータ) (2021-02-03T17:05:55Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z) - Retrain or not retrain? -- efficient pruning methods of deep CNN
networks [0.30458514384586394]
畳み込みニューラルネットワーク(CNN)は、画像分類、オブジェクト検出、セマンティックセグメンテーションといった画像処理タスクにおいて重要な役割を果たしている。
CNNネットワークは数百から数百の積み重ねレイヤーと数メガバイトの重みを持つことが多い。
複雑性とメモリフットプリントを削減する方法の1つは、プルーニングである。
論文 参考訳(メタデータ) (2020-02-12T23:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。