論文の概要: Quantifying the synthetic and real domain gap in aerial scene understanding
- arxiv url: http://arxiv.org/abs/2411.19913v1
- Date: Fri, 29 Nov 2024 18:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:48.485815
- Title: Quantifying the synthetic and real domain gap in aerial scene understanding
- Title(参考訳): 航空シーン理解における合成領域と実領域のギャップの定量化
- Authors: Alina Marcu,
- Abstract要約: 本稿では,MMCM(Multi-Model Consensus Metric)と深度に基づく構造指標を用いたシーン複雑性評価手法を提案する。
実世界(Dronescapes)と合成(Skyscenes)のデータセットを用いて、実世界のシーンは一般的に最先端のビジョントランスフォーマーの間で高いコンセンサスを示すことを示す。
結果は、固有複雑さとドメインギャップを下記し、シミュレーション忠実度の向上とモデル一般化の必要性を強調した。
- 参考スコア(独自算出の注目度): 1.696456370910212
- License:
- Abstract: Quantifying the gap between synthetic and real-world imagery is essential for improving both transformer-based models - that rely on large volumes of data - and datasets, especially in underexplored domains like aerial scene understanding where the potential impact is significant. This paper introduces a novel methodology for scene complexity assessment using Multi-Model Consensus Metric (MMCM) and depth-based structural metrics, enabling a robust evaluation of perceptual and structural disparities between domains. Our experimental analysis, utilizing real-world (Dronescapes) and synthetic (Skyscenes) datasets, demonstrates that real-world scenes generally exhibit higher consensus among state-of-the-art vision transformers, while synthetic scenes show greater variability and challenge model adaptability. The results underline the inherent complexities and domain gaps, emphasizing the need for enhanced simulation fidelity and model generalization. This work provides critical insights into the interplay between domain characteristics and model performance, offering a pathway for improved domain adaptation strategies in aerial scene understanding.
- Abstract(参考訳): 合成画像と実世界の画像のギャップを定量化することは、大量のデータに依存するトランスフォーマーベースのモデルとデータセットの両方を改善するために不可欠である。
本稿では,Multi-Model Consensus Metric (MMCM) とDeep-based Structure Metricを用いたシーン複雑性評価手法を提案する。
実世界(Dronescapes)と合成(Skyscenes)のデータセットを用いて、我々の実験分析により、実世界のシーンは一般的に最先端のビジョントランスフォーマーの間で高いコンセンサスを示し、合成シーンはより多様性を示し、モデルの適応性に挑戦する。
結果は、固有複雑さとドメインギャップを下記し、シミュレーション忠実度の向上とモデル一般化の必要性を強調した。
この研究は、ドメイン特性とモデル性能の相互作用に関する重要な洞察を与え、航空シーン理解におけるドメイン適応戦略を改善するための経路を提供する。
関連論文リスト
- Grounding Stylistic Domain Generalization with Quantitative Domain Shift Measures and Synthetic Scene Images [63.58800688320182]
ドメインの一般化は機械学習において難しい課題である。
現在の方法論は、スタイリスティック領域におけるシフトに関する定量的な理解を欠いている。
これらのリスクに対処する新しいDGパラダイムを導入する。
論文 参考訳(メタデータ) (2024-05-24T22:13:31Z) - VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning [53.35114015288077]
我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。
ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。
我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
論文 参考訳(メタデータ) (2024-02-22T11:21:54Z) - Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird's Eye View Segmentation for Connected and Autonomous Driving [49.03947018718156]
協調的な知覚の訓練と推論の段階で利用される統合されたドメイン一般化フレームワークを提案する。
また、システム内ドメインアライメント機構を導入し、コネクテッドおよび自律走行車間のドメインの差を減らし、潜在的に排除する。
論文 参考訳(メタデータ) (2023-11-28T12:52:49Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Domain Adaptation of Synthetic Driving Datasets for Real-World
Autonomous Driving [0.11470070927586014]
特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークは、実世界のデータでテストすると大幅に劣化する。
本稿では,このような手法を改良するための新しい手法を提案し,評価する。
本稿では,このペア選択にセマンティック・インスペクションを効果的に組み込む手法を提案し,モデルの性能向上に寄与する。
論文 参考訳(メタデータ) (2023-02-08T15:51:54Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Rethinking Blur Synthesis for Deep Real-World Image Deblurring [4.00114307523959]
本稿では,撮影過程をシミュレートする,新しいリアルなボケ合成パイプラインを提案する。
機能領域における非局所的依存関係と局所的コンテキストを同時にキャプチャする効果的なデブロアリングモデルを開発する。
3つの実世界のデータセットに関する総合的な実験により、提案したデブロアリングモデルは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-09-28T06:50:16Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Content Disentanglement for Semantically Consistent
Synthetic-to-RealDomain Adaptation in Urban Traffic Scenes [39.38387505091648]
合成データ生成は、自動運転における新しい交通シナリオを生成する魅力的なアプローチです。
合成データだけで訓練されたディープラーニング技術は、実際のデータでテストされたときに劇的なパフォーマンス低下に遭遇します。
本稿では,合成データと実データの間で意味的に一貫性のあるドメイン適応を実現する,教師なしのエンドツーエンドドメイン適応ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-05-18T17:42:26Z) - Generative Adversarial Transformers [13.633811200719627]
本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。
ネットワークは、線形効率の計算を維持しながら、画像間の長距離相互作用を可能にする二部構造を用いる。
高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:54:04Z) - Domain Decluttering: Simplifying Images to Mitigate Synthetic-Real
Domain Shift and Improve Depth Estimation [16.153683223016973]
本研究では,実際の画像における領域外領域の特定と削除を学習するアテンションモジュールを開発する。
削除された領域を視覚化することで、合成と実際のドメインギャップに関する解釈可能な洞察が得られる。
論文 参考訳(メタデータ) (2020-02-27T14:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。