論文の概要: How Important are Data Augmentations to Close the Domain Gap for Object Detection in Orbit?
- arxiv url: http://arxiv.org/abs/2410.15766v1
- Date: Mon, 21 Oct 2024 08:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:31.589420
- Title: How Important are Data Augmentations to Close the Domain Gap for Object Detection in Orbit?
- Title(参考訳): オブジェクト検出のための領域ギャップを閉じるためのデータ拡張はどの程度重要か?
- Authors: Maximilian Ulmer, Leonard Klüpfel, Maximilian Durner, Rudolph Triebel,
- Abstract要約: 宇宙空間におけるコンピュータビジョンの領域ギャップを埋めるためのデータ拡張の有効性について検討する。
本稿では,軌道画像に観察される視覚効果をエミュレートするために開発された2つの新しいデータ拡張法を提案する。
- 参考スコア(独自算出の注目度): 15.550663626482903
- License:
- Abstract: We investigate the efficacy of data augmentations to close the domain gap in spaceborne computer vision, crucial for autonomous operations like on-orbit servicing. As the use of computer vision in space increases, challenges such as hostile illumination and low signal-to-noise ratios significantly hinder performance. While learning-based algorithms show promising results, their adoption is limited by the need for extensive annotated training data and the domain gap that arises from differences between synthesized and real-world imagery. This study explores domain generalization in terms of data augmentations -- classical color and geometric transformations, corruptions, and noise -- to enhance model performance across the domain gap. To this end, we conduct an large scale experiment using a hyperparameter optimization pipeline that samples hundreds of different configurations and searches for the best set to bridge the domain gap. As a reference task, we use 2D object detection and evaluate on the SPEED+ dataset that contains real hardware-in-the-loop satellite images in its test set. Moreover, we evaluate four popular object detectors, including Mask R-CNN, Faster R-CNN, YOLO-v7, and the open set detector GroundingDINO, and highlight their trade-offs between performance, inference speed, and training time. Our results underscore the vital role of data augmentations in bridging the domain gap, improving model performance, robustness, and reliability for critical space applications. As a result, we propose two novel data augmentations specifically developed to emulate the visual effects observed in orbital imagery. We conclude by recommending the most effective augmentations for advancing computer vision in challenging orbital environments. Code for training detectors and hyperparameter search will be made publicly available.
- Abstract(参考訳): 宇宙空間におけるコンピュータビジョンの領域ギャップを埋めるためのデータ拡張の有効性について検討する。
空間におけるコンピュータビジョンの利用が増加するにつれて、敵の照明や低信号対雑音比といった課題は性能を著しく損なう。
学習ベースのアルゴリズムは有望な結果を示すが、それらの採用は、広範囲な注釈付きトレーニングデータの必要性と、合成画像と実世界の画像の違いから生じる領域ギャップによって制限される。
本研究では、データ拡張(古典的な色と幾何学的な変換、腐敗、ノイズ)の観点から、ドメインの一般化を検討し、ドメインギャップをまたいだモデル性能を向上させる。
この目的のために、数百の異なる構成をサンプリングし、ドメインギャップを埋める最適なセットを探索するハイパーパラメータ最適化パイプラインを用いて大規模な実験を行う。
参照タスクとして、2Dオブジェクトの検出と、実際のハードウェア・イン・ザ・ループ衛星画像を含むSPEED+データセットの評価を行う。
さらに,Mask R-CNN,Faster R-CNN,YOLO-v7,オープンセット検出器 GroundingDINO の4つの人気物体検出器を評価し,性能,推論速度,トレーニング時間のトレードオフを強調した。
我々の結果は、重要な宇宙アプリケーションにおいて、ドメインギャップを埋め、モデル性能、ロバスト性、信頼性を向上させる上で、データ拡張が不可欠であることを示す。
その結果、軌道画像に観察される視覚効果をエミュレートする2つの新しいデータ拡張法が提案された。
我々は、挑戦的な軌道環境において、コンピュータビジョンを前進させるための最も効果的な拡張を推奨することで結論付ける。
検出器のトレーニングコードとハイパーパラメーターサーチが公開されている。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research [90.91438597133211]
我々は、強化学習の適用において重要なシステムのボトルネックを克服するために設計されたフレームワークであるWarpSciを紹介する。
我々は、CPUとGPU間のデータ転送の必要性を排除し、数千のシミュレーションを同時実行可能にする。
論文 参考訳(メタデータ) (2024-08-01T21:38:09Z) - Are NeRFs ready for autonomous driving? Towards closing the real-to-simulation gap [6.393953433174051]
本稿では,実際のデータギャップに対処するための新しい視点を提案する。
自律運転環境における実シミュレーションデータギャップの大規模調査を初めて実施する。
シミュレーションデータに対するモデルロバスト性は顕著に向上し,実世界の性能も向上した。
論文 参考訳(メタデータ) (2024-03-24T11:09:41Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - SPADES: A Realistic Spacecraft Pose Estimation Dataset using Event
Sensing [9.583223655096077]
実際のターゲットデータセットへのアクセスが限られているため、アルゴリズムはしばしば合成データを使用して訓練され、実際のドメインに適用される。
イベントセンシングは過去にも行われており、シミュレーションと実世界のシナリオの間のドメインギャップを減らすことが示されている。
制御された実験室で取得した実イベントデータと、同じカメラ内在性を用いてイベントデータをシミュレートした新しいデータセットSPADESを提案する。
論文 参考訳(メタデータ) (2023-11-09T12:14:47Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Object-Based Augmentation Improves Quality of Remote SensingSemantic
Segmentation [0.0]
本研究では,オブジェクトベース拡張の開発とテストに焦点をあてる。
本研究では,トレーニングサンプル数を大幅に増加させるジオリファレンス画像拡張のための新しいパイプラインを提案する。
提示されたパイプラインはオブジェクトベースの拡張(OBA)と呼ばれ、オブジェクトのセグメンテーションマスクを利用して新しい現実的なトレーニングシーンを生成します。
論文 参考訳(メタデータ) (2021-05-12T08:54:55Z) - DA4Event: towards bridging the Sim-to-Real Gap for Event Cameras using
Domain Adaptation [22.804074390795734]
イベントカメラは「イベント」の形でピクセルレベルの強度変化を捉えます
これらのセンサーの新規性は、その可能性を解き放つことができる大量のトレーニングデータの欠如をもたらす。
本稿では,フレームベースのイベント表現の特質を活かした新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-23T18:09:20Z) - ePointDA: An End-to-End Simulation-to-Real Domain Adaptation Framework
for LiDAR Point Cloud Segmentation [111.56730703473411]
LiDARデータ上でディープニューラルネットワーク(DNN)をトレーニングするには、大規模なポイントワイドアノテーションが必要である。
シミュレーション・トゥ・リアル・ドメイン適応(SRDA)は、DNNを無制限の合成データと自動生成されたラベルで訓練する。
ePointDAは、自己教師付きドロップアウトノイズレンダリング、統計不変および空間適応型特徴アライメント、転送可能なセグメンテーション学習の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2020-09-07T23:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。