論文の概要: Revisiting Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2103.12496v1
- Date: Tue, 23 Mar 2021 12:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:04:50.295046
- Title: Revisiting Self-Supervised Monocular Depth Estimation
- Title(参考訳): 自己監督型単眼深度推定の再検討
- Authors: Ue-Hwan Kim, Jong-Hwan Kim
- Abstract要約: 単眼ビデオシーケンスからの深度マップ予測と動き推定の自己監督学習は非常に重要です。
深度と運動の合同学習のための多数の提案された自己監督手法を再検討する。
これまでの最先端のパフォーマンスを上回った研究の結果、パフォーマンスを格段に高めました。
- 参考スコア(独自算出の注目度): 4.448212204915639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning of depth map prediction and motion estimation from
monocular video sequences is of vital importance -- since it realizes a broad
range of tasks in robotics and autonomous vehicles. A large number of research
efforts have enhanced the performance by tackling illumination variation,
occlusions, and dynamic objects, to name a few. However, each of those efforts
targets individual goals and endures as separate works. Moreover, most of
previous works have adopted the same CNN architecture, not reaping
architectural benefits. Therefore, the need to investigate the inter-dependency
of the previous methods and the effect of architectural factors remains. To
achieve these objectives, we revisit numerous previously proposed
self-supervised methods for joint learning of depth and motion, perform a
comprehensive empirical study, and unveil multiple crucial insights.
Furthermore, we remarkably enhance the performance as a result of our study --
outperforming previous state-of-the-art performance.
- Abstract(参考訳): ロボット工学や自動運転車における幅広いタスクを実現するため、深度マップの予測と単眼ビデオシーケンスからのモーション推定の自己監督的な学習が重要である。
多くの研究が照明の変動、咬合、ダイナミックな物体に取り組み、いくつかの名前をつけることで性能を高めている。
しかし、これらの取り組みは個別の目標を目標とし、個別の作業として耐えられる。
さらに、以前の作品のほとんどが同じCNNアーキテクチャを採用しており、アーキテクチャ上のメリットを享受していない。
そのため, 従来の手法の相互依存性と, 建築要因の影響について検討する必要がある。
これらの目的を達成するために,これまでに提案してきた,深度と運動の合同学習のための自己教師あり手法,総合的な実験研究を行い,複数の重要な知見を提示する。
さらに,本研究の結果,従来の最先端性能よりも性能が著しく向上した。
関連論文リスト
- Are Visual-Language Models Effective in Action Recognition? A Comparative Study [22.97135293252601]
本稿では,最先端のビジョン基盤モデルに関する大規模研究と知見を提供する。
ゼロショットとフレームワイドのアクション認識タスクへの転送能力を比較する。
最近の微粒な人間中心の行動認識データセットで実験を行う。
論文 参考訳(メタデータ) (2024-10-22T16:28:21Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Multi-Task Learning for Affect Analysis [0.0]
本研究は,同じ問題に対するユニタスク・ソリューションとマルチタスク・アプローチの2つの主要なアプローチについて検討する。
このプロジェクトは既存のニューラルネットワークアーキテクチャを活用し、出力層と損失関数を変更することでマルチタスク学習に適応する。
この研究は、医療、マーケティング、人間とコンピュータの相互作用にまたがるアプリケーションによって、感情コンピューティングの急成長する分野に貢献することを目指している。
論文 参考訳(メタデータ) (2024-06-30T12:36:37Z) - When Medical Imaging Met Self-Attention: A Love Story That Didn't Quite Work Out [8.113092414596679]
2つの異なる医療データセットに異なる自己注意変異を持つ、広く採用されている2つの畳み込みアーキテクチャを拡張します。
完全畳み込みモデルに比べてバランスの取れた精度は著しく改善されていない。
また, 皮膚病変画像における皮膚内視鏡像などの重要な特徴は, 自己注意を用いても学ばないことが明らかとなった。
論文 参考訳(メタデータ) (2024-04-18T16:18:41Z) - Beyond One Model Fits All: Ensemble Deep Learning for Autonomous
Vehicles [16.398646583844286]
本研究では,Mediated Perception, Behavior Reflex, Direct Perceptionの3つの異なるニューラルネットワークモデルを紹介する。
我々のアーキテクチャは、グローバルなルーティングコマンドを使用して、ベース、将来の潜伏ベクトル予測、補助タスクネットワークからの情報を融合し、適切なアクションサブネットワークを選択する。
論文 参考訳(メタデータ) (2023-12-10T04:40:02Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。
伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。
アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:07Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。