論文の概要: Visual Descriptor Learning from Monocular Video
- arxiv url: http://arxiv.org/abs/2004.07007v1
- Date: Wed, 15 Apr 2020 11:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 03:40:28.625980
- Title: Visual Descriptor Learning from Monocular Video
- Title(参考訳): 単眼ビデオからの視覚記述子学習
- Authors: Umashankar Deekshith, Nishit Gajjar, Max Schwarz, Sven Behnke
- Abstract要約: 完全畳み込みネットワークを訓練することにより,RGB画像上の高密度対応性を推定する手法を提案する。
提案手法は,光学的流れから相対的なラベリングを推定するコントラッシブ・ロスを用いてRGBビデオから学習する。
同じバックグラウンドを持つテストデータに対して、メソッドがうまく機能するだけでなく、新しいバックグラウンドを持つ状況にも一般化する。
- 参考スコア(独自算出の注目度): 25.082587246288995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correspondence estimation is one of the most widely researched and yet only
partially solved area of computer vision with many applications in tracking,
mapping, recognition of objects and environment. In this paper, we propose a
novel way to estimate dense correspondence on an RGB image where visual
descriptors are learned from video examples by training a fully convolutional
network. Most deep learning methods solve this by training the network with a
large set of expensive labeled data or perform labeling through strong 3D
generative models using RGB-D videos. Our method learns from RGB videos using
contrastive loss, where relative labeling is estimated from optical flow. We
demonstrate the functionality in a quantitative analysis on rendered videos,
where ground truth information is available. Not only does the method perform
well on test data with the same background, it also generalizes to situations
with a new background. The descriptors learned are unique and the
representations determined by the network are global. We further show the
applicability of the method to real-world videos.
- Abstract(参考訳): 対応推定は最も広く研究されているものの1つであり、追跡、マッピング、オブジェクトの認識、環境における多くの応用を含むコンピュータビジョンの部分的に解決された領域である。
本稿では,完全な畳み込みネットワークをトレーニングすることにより,映像の例から視覚記述子を学習するRGB画像上での高密度対応を推定する手法を提案する。
ほとんどのディープラーニング手法は、高額なラベル付きデータでネットワークをトレーニングし、RGB-Dビデオを使用して強力な3D生成モデルを通じてラベル付けを行う。
本手法は,相対ラベリングを光学フローから推定するコントラスト損失を用いて,rgbビデオから学習する。
地上の真理情報が得られるレンダリングビデオの定量的分析で,その機能を実証する。
同じバックグラウンドを持つテストデータに対して、メソッドがうまく機能するだけでなく、新しいバックグラウンドを持つ状況にも一般化する。
学んだディスクリプタはユニークであり、ネットワークによって決定される表現はグローバルである。
さらに,本手法を実世界ビデオに適用する可能性を示す。
関連論文リスト
- ViDaS Video Depth-aware Saliency Network [40.08270905030302]
両ストリームの完全な畳み込みビデオ,Depth-Aware Saliency ネットワークである ViDaS を紹介する。
ビデオのサリエンシ予測を通じて、注目度モデリングの問題に対処する。
ネットワークは2つのビジュアルストリームで構成され、1つはRGBフレーム用、もう1つは奥行きフレーム用である。
エンドツーエンドでトレーニングされ、アイトラッキングデータを備えたさまざまなデータベースで評価される。
論文 参考訳(メタデータ) (2023-05-19T15:04:49Z) - Self-Supervised Learning of Object Segmentation from Unlabeled RGB-D
Videos [11.40098981859033]
本研究では,RGB画像中の剛体物体をセグメント化するための自己教師型学習システムを提案する。
提案するパイプラインは、静的オブジェクトのラベル付けされていないRGB-Dビデオに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-04-09T23:13:39Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Pixel-level Correspondence for Self-Supervised Learning from Video [56.24439897867531]
ピクセルレベルの対応 (PiCo) はビデオから高密度なコントラスト学習を行う方法である。
標準的なベンチマークでPiCoを検証し、複数の高密度予測タスクで自己教師付きベースラインを上回ります。
論文 参考訳(メタデータ) (2022-07-08T12:50:13Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Cloud based Scalable Object Recognition from Video Streams using
Orientation Fusion and Convolutional Neural Networks [11.44782606621054]
畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。
CNNはいまだに深刻な精度低下、特に照明変動データセットに悩まされている。
視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T07:15:15Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - LCD -- Line Clustering and Description for Place Recognition [29.053923938306323]
本稿では,RGB-Dカメラとラインクラスタを視覚的および幾何学的特徴として利用し,位置認識のための新しい学習ベースのアプローチを提案する。
本稿では,フレームワイド線クラスタリングのアテンション機構に基づくニューラルネットワークアーキテクチャを提案する。
同様のニューラルネットワークは、128個の浮動小数点数のコンパクトな埋め込みによるこれらのクラスタの記述に使用される。
論文 参考訳(メタデータ) (2020-10-21T09:52:47Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。