論文の概要: Deep Learning Stereo Vision at the edge
- arxiv url: http://arxiv.org/abs/2001.04552v1
- Date: Mon, 13 Jan 2020 22:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 22:49:15.636488
- Title: Deep Learning Stereo Vision at the edge
- Title(参考訳): エッジでのディープラーニングステレオビジョン
- Authors: Luca Puglia and Cormac Brick
- Abstract要約: 本稿では,システム・オン・チップに適した新しいステレオ・ビジョン・ソリューションを構築するための方法論の概要を紹介する。
この新しいソリューションは、電力制約のある環境にある組み込みデバイスにコンピュータビジョン能力をもたらすために開発された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an overview of the methodology used to build a new stereo vision
solution that is suitable for System on Chip. This new solution was developed
to bring computer vision capability to embedded devices that live in a power
constrained environment. The solution is constructured as a hybrid between
classical Stereo Vision techniques and deep learning approaches. The
stereoscopic module is composed of two separate modules: one that accelerates
the neural network we trained and one that accelerates the front-end part. The
system is completely passive and does not require any structured light to
obtain very compelling accuracy. With respect to the previous Stereo Vision
solutions offered by the industries we offer a major improvement is robustness
to noise. This is mainly possible due to the deep learning part of the chosen
architecture. We submitted our result to Middlebury dataset challenge. It
currently ranks as the best System on Chip solution. The system has been
developed for low latency applications which require better than real time
performance on high definition videos.
- Abstract(参考訳): 本稿では,チップ上のシステムに適した新しいステレオビジョンソリューションを構築するための方法論の概要を紹介する。
この新しいソリューションは、電力制約のある環境にある組み込みデバイスにコンピュータビジョン能力をもたらすために開発された。
このソリューションは、古典的ステレオビジョン技術とディープラーニングアプローチのハイブリッドとして構築されている。
ステレオモジュールは、トレーニングしたニューラルネットワークを加速するモジュールと、フロントエンド部分を加速するモジュールの2つのモジュールで構成されています。
システムは完全に受動的であり、非常に説得力のある精度を得るために構造的な光を必要としない。
業界によって提供された以前のステレオビジョンソリューションに関して、大きな改善はノイズに対する堅牢性です。
これは主に、選択されたアーキテクチャのディープラーニング部分によって可能になります。
結果は middlebury dataset challenge に提出しました。
これは現在、チップソリューションのベストシステムとしてランク付けされている。
このシステムは高精細度ビデオのリアルタイム性能よりも優れた低レイテンシアプリケーション向けに開発された。
関連論文リスト
- Spatially Visual Perception for End-to-End Robotic Learning [33.490603706207075]
環境変動に対処するために3次元空間表現を利用する映像ベース空間認識フレームワークを提案する。
提案手法は,新しい画像拡張手法であるAugBlenderと,インターネット規模のデータに基づいてトレーニングされた最先端のモノクロ深度推定モデルを統合する。
論文 参考訳(メタデータ) (2024-11-26T14:23:42Z) - SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input [6.275971782566314]
本研究では,SpatialDreamerと呼ばれるビデオ拡散モデルを用いて,自己監督型ステレオ合成ビデオパラダイムを提案する。
ステレオビデオデータ不足に対処するため,Depth ベースのビデオ生成モジュール DVG を提案する。
また,RefinerNetと,効率的で専用のトレーニングを容易にするための自己教師型合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T15:12:59Z) - Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリの提供を目的とした,新しい階層的BEV知覚パラダイムを提案する。
我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。
また、マルチモジュールラーニング(MML)アプローチを提案し、複数のモデルの相乗的かつ反復的な訓練により性能を向上させる。
論文 参考訳(メタデータ) (2024-07-17T11:17:20Z) - METER: a mobile vision transformer architecture for monocular depth
estimation [0.0]
アート推定の状態を達成できる新しい軽量ビジョントランスフォーマアーキテクチャであるMETERを提案する。
本稿では,METERの3つの代替構成,画像詳細の画素推定と再構成のバランスをとる新たな損失関数,および最終的な予測を改善するための新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2024-03-13T09:30:08Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - A Deeper Look into DeepCap [96.67706102518238]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2021-11-20T11:34:33Z) - StereoSpike: Depth Learning with a Spiking Neural Network [0.0]
深度推定のためのエンドツーエンドのニューロモルフィック手法を提案する。
我々はSpiking Neural Network (SNN) と、StereoSpikeという名前のU-Netライクなエンコーダデコーダアーキテクチャを用いている。
このアーキテクチャは、スポーキング以外のアーキテクチャよりも、非常によく一般化されていることを実証します。
論文 参考訳(メタデータ) (2021-09-28T14:11:36Z) - Deep Neural Network-based Enhancement for Image and Video Streaming
Systems: A Survey and Future Directions [20.835654670825782]
ディープラーニングは、品質の低い画像から高品質な画像を生成する上で、前例のないパフォーマンスをもたらした。
本稿では,高速応答時間と高画質を実現する上で重要な要素として,ニューラルエンハンスメントを用いた最新のコンテンツ配信システムを提案する。
論文 参考訳(メタデータ) (2021-06-07T15:42:36Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Continual Adaptation for Deep Stereo [52.181067640300014]
本稿では,難易度と変化の激しい環境に対処するために,深層ステレオネットワークの継続的適応パラダイムを提案する。
我々のパラダイムでは、オンラインモデルに継続的に適応するために必要な学習信号は、右から左への画像ワープや従来のステレオアルゴリズムによって自己監督から得られる。
我々のネットワークアーキテクチャと適応アルゴリズムは、初めてのリアルタイム自己適応型ディープステレオシステムを実現する。
論文 参考訳(メタデータ) (2020-07-10T08:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。