論文の概要: Learning from the Giants: A Practical Approach to Underwater Depth and Surface Normals Estimation
- arxiv url: http://arxiv.org/abs/2410.02072v1
- Date: Wed, 2 Oct 2024 22:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:05:40.833084
- Title: Learning from the Giants: A Practical Approach to Underwater Depth and Surface Normals Estimation
- Title(参考訳): ジャイアンツから学ぶ:水中深度と表面正常度推定への実践的アプローチ
- Authors: Alzayat Saleh, Melanie Olsen, Bouchra Senadji, Mostafa Rahimi Azghadi,
- Abstract要約: 本稿では,単眼深度と表面正規化推定(MDSNE)のための新しいディープラーニングモデルを提案する。
これは特に、CNNとTransformerを統合するハイブリッドアーキテクチャを使用して、水中環境向けに調整されている。
我々のモデルはパラメータを90%削減し、トレーニングコストを80%削減し、リソース制約されたデバイス上でリアルタイムな3D認識を可能にする。
- 参考スコア(独自算出の注目度): 3.0516727053033392
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular Depth and Surface Normals Estimation (MDSNE) is crucial for tasks such as 3D reconstruction, autonomous navigation, and underwater exploration. Current methods rely either on discriminative models, which struggle with transparent or reflective surfaces, or generative models, which, while accurate, are computationally expensive. This paper presents a novel deep learning model for MDSNE, specifically tailored for underwater environments, using a hybrid architecture that integrates Convolutional Neural Networks (CNNs) with Transformers, leveraging the strengths of both approaches. Training effective MDSNE models is often hampered by noisy real-world datasets and the limited generalization of synthetic datasets. To address this, we generate pseudo-labeled real data using multiple pre-trained MDSNE models. To ensure the quality of this data, we propose the Depth Normal Evaluation and Selection Algorithm (DNESA), which evaluates and selects the most reliable pseudo-labeled samples using domain-specific metrics. A lightweight student model is then trained on this curated dataset. Our model reduces parameters by 90% and training costs by 80%, allowing real-time 3D perception on resource-constrained devices. Key contributions include: a novel and efficient MDSNE model, the DNESA algorithm, a domain-specific data pipeline, and a focus on real-time performance and scalability. Designed for real-world underwater applications, our model facilitates low-cost deployments in underwater robots and autonomous vehicles, bridging the gap between research and practical implementation.
- Abstract(参考訳): 単眼深度と表面正常度推定(MDSNE)は3次元再構成、自律航法、水中探査などの作業に不可欠である。
現在の手法は、透明または反射面に苦しむ識別モデルや、正確ではあるが計算コストが高い生成モデルに依存している。
本稿では,CNN(Convolutional Neural Networks)とTransformersを統合し,両アプローチの強みを活用するハイブリッドアーキテクチャを用いて,特に水中環境に適したMDSNEのための新しいディープラーニングモデルを提案する。
効果的なMDSNEモデルのトレーニングは、しばしばノイズの多い実世界のデータセットと、合成データセットの限定的な一般化によって妨げられる。
そこで我々は,複数の事前学習MDSNEモデルを用いて,擬似ラベル付き実データを生成する。
このデータの品質を確保するために、ドメイン固有のメトリクスを用いて最も信頼性の高い疑似ラベル付きサンプルを評価・選択するDepth Normal Evaluation and Selection Algorithm (DNESA)を提案する。
ライトウェイトな学生モデルは、このキュレートされたデータセットでトレーニングされる。
我々のモデルはパラメータを90%削減し、トレーニングコストを80%削減し、リソース制約されたデバイス上でリアルタイムな3D認識を可能にする。
主なコントリビューションは、新規で効率的なMDSNEモデル、DNESAアルゴリズム、ドメイン固有のデータパイプライン、リアルタイムのパフォーマンスとスケーラビリティに焦点を当てている。
実際の水中アプリケーションのために設計されたこのモデルは、水中ロボットと自動運転車の低コスト展開を促進し、研究と実践のギャップを埋める。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定値から計量深度値を求めるための,実践的なオンラインスケール回復手法であるTanDepthを提案する。
本手法は無人航空機(UAV)の用途に応用され,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスシミュレーションフィルタへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。
我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。
本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文 参考訳(メタデータ) (2023-09-17T12:26:57Z) - Conformal Predictions Enhanced Expert-guided Meshing with Graph Neural
Networks [8.736819316856748]
本稿では,GNN(Graph Neural Networks)とエキスパートガイダンスを用いて,航空機モデルのためのCFDメッシュの自動生成を行う機械学習方式を提案する。
曲面分類のための2つの最先端モデルであるPointNet++とPointMLPより優れた3次元分割アルゴリズムを提案する。
また,3次元メッシュ分割モデルからCAD表面への射影予測を共形予測法を用いて提案する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T14:39:13Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Opportunistic Emulation of Computationally Expensive Simulations via
Deep Learning [9.13837510233406]
本稿では,APSIMモデルの機会論的モデルエミュレーションにおけるディープニューラルネットワークの利用について検討する。
我々は,APSIMモデルの4つの重要な出力(runoff, soil_loss, DINrunoff, Nleached)をエミュレートすることに重点を置いている。
論文 参考訳(メタデータ) (2021-08-25T05:57:16Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。