論文の概要: Real-Time Monocular Scene Analysis for UAV in Outdoor Environments
- arxiv url: http://arxiv.org/abs/2603.13368v1
- Date: Mon, 09 Mar 2026 14:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.792341
- Title: Real-Time Monocular Scene Analysis for UAV in Outdoor Environments
- Title(参考訳): 屋外環境におけるUAVの実時間モノクラーシーン解析
- Authors: Yara AlaaEldin,
- Abstract要約: 我々はCo-SemDepthという,2つのタスクを正確かつ迅速に実行可能な共同ディープラーニングアーキテクチャを提案する。
Co-SemDepthは、MidSeaと呼ばれる合成海洋データに基づいて訓練され、合成データと実データの両方でテストされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this thesis, we leverage monocular cameras on aerial robots to predict depth and semantic maps in low-altitude unstructured environments. We propose a joint deep-learning architecture, named Co-SemDepth, that can perform the two tasks accurately and rapidly, and validate its effectiveness on a variety of datasets. The training of neural networks requires an abundance of annotated data, and in the UAV field, the availability of such data is limited. We introduce a new synthetic dataset in this thesis, TopAir that contains images captured with a nadir view in outdoor environments at different altitudes, helping to fill the gap. While using synthetic data for the training is convenient, it raises issues when shifting to the real domain for testing. We conduct an extensive analytical study to assess the effect of several factors on the synthetic-to-real generalization. Co-SemDepth and TaskPrompter models are used for comparison in this study. The results reveal a superior generalization performance for Co-SemDepth in depth estimation and for TaskPrompter in semantic segmentation. Also, our analysis allows us to determine which training datasets lead to a better generalization. Moreover, to help attenuate the gap between the synthetic and real domains, image style transfer techniques are explored on aerial images to convert from the synthetic to the realistic style. Cycle-GAN and Diffusion models are employed. The results reveal that diffusion models are better in the synthetic to real style transfer. In the end, we focus on the marine domain and address its challenges. Co-SemDepth is trained on a collected synthetic marine data, called MidSea, and tested on both synthetic and real data. The results reveal good generalization performance of Co-SemDepth when tested on real data from the SMD dataset while further enhancement is needed on the MIT dataset.
- Abstract(参考訳): 本論文では,低高度非構造環境下での深度・セマンティックマップの予測に単眼カメラを用いる。
我々はCo-SemDepthという共同ディープラーニングアーキテクチャを提案し、その2つのタスクを正確かつ迅速に実行し、その効果をさまざまなデータセットで検証する。
ニューラルネットワークのトレーニングには、大量の注釈付きデータが必要であり、UAVフィールドでは、そのようなデータの可用性が制限される。
この論文で我々は、異なる高度の屋外環境でナディアビューで撮影された画像を含むTopAirという新しい合成データセットを導入し、ギャップを埋めるのに役立ちます。
トレーニングに合成データを使用するのは便利だが、テストのために実際のドメインに移行する際に問題が発生する。
本研究は, 合成-現実一般化に対するいくつかの因子の影響を評価するために, 広範囲にわたる解析的研究を行った。
本研究では,コセムデプスモデルとタスクプロンプターモデルを用いて比較を行った。
その結果,Co-SemDepthの深度推定および意味的セグメンテーションにおけるTaskPrompterの最適化性能が優れていることがわかった。
また、分析により、どのトレーニングデータセットがより良い一般化につながるかを判断できます。
さらに,合成ドメインと実ドメインのギャップを緩和するために,合成ドメインからリアルドメインへの変換を行うために,空中画像上で画像スタイルの転送手法を探索した。
サイクルGANと拡散モデルが採用されている。
以上の結果から, 拡散モデルの方が, 合成から実スタイルへの移行において良好であることが示唆された。
最終的には、海洋ドメインに注目し、その課題に対処します。
Co-SemDepthは、MidSeaと呼ばれる合成海洋データに基づいて訓練され、合成データと実データの両方でテストされている。
その結果,SMDデータセットからの実データでテストした場合のCo-SemDepthの一般化性能は良好であり,MITデータセットではさらなる拡張が必要であることがわかった。
関連論文リスト
- Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - UAV-Sim: NeRF-based Synthetic Data Generation for UAV-based Perception [62.71374902455154]
ニューラルレンダリングの最近の進歩を利用して、静的および動的ノベルビューUAVベースの画像レンダリングを改善する。
本研究では,主に実データと合成データのハイブリッドセットに基づいて最先端検出モデルが最適化された場合,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-25T00:20:37Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Domain Adaptation of Synthetic Driving Datasets for Real-World
Autonomous Driving [0.11470070927586014]
特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークは、実世界のデータでテストすると大幅に劣化する。
本稿では,このような手法を改良するための新しい手法を提案し,評価する。
本稿では,このペア選択にセマンティック・インスペクションを効果的に組み込む手法を提案し,モデルの性能向上に寄与する。
論文 参考訳(メタデータ) (2023-02-08T15:51:54Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。