Fugu-MT 論文翻訳(概要): Quantifying the synthetic and real domain gap in aerial scene understanding

論文の概要: Quantifying the synthetic and real domain gap in aerial scene understanding

arxiv url: http://arxiv.org/abs/2411.19913v1
Date: Fri, 29 Nov 2024 18:18:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:08.104733
Title: Quantifying the synthetic and real domain gap in aerial scene understanding
Title（参考訳）: 航空シーン理解における合成領域と実領域のギャップの定量化
Authors: Alina Marcu,
Abstract要約: 本稿では,MMCM(Multi-Model Consensus Metric)と深度に基づく構造指標を用いたシーン複雑性評価手法を提案する。実世界(Dronescapes)と合成(Skyscenes)のデータセットを用いて、実世界のシーンは一般的に最先端のビジョントランスフォーマーの間で高いコンセンサスを示すことを示す。結果は、固有複雑さとドメインギャップを下記し、シミュレーション忠実度の向上とモデル一般化の必要性を強調した。
参考スコア（独自算出の注目度）: 1.696456370910212
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Quantifying the gap between synthetic and real-world imagery is essential for improving both transformer-based models - that rely on large volumes of data - and datasets, especially in underexplored domains like aerial scene understanding where the potential impact is significant. This paper introduces a novel methodology for scene complexity assessment using Multi-Model Consensus Metric (MMCM) and depth-based structural metrics, enabling a robust evaluation of perceptual and structural disparities between domains. Our experimental analysis, utilizing real-world (Dronescapes) and synthetic (Skyscenes) datasets, demonstrates that real-world scenes generally exhibit higher consensus among state-of-the-art vision transformers, while synthetic scenes show greater variability and challenge model adaptability. The results underline the inherent complexities and domain gaps, emphasizing the need for enhanced simulation fidelity and model generalization. This work provides critical insights into the interplay between domain characteristics and model performance, offering a pathway for improved domain adaptation strategies in aerial scene understanding.
Abstract（参考訳）: 合成画像と実世界の画像のギャップを定量化することは、大量のデータに依存するトランスフォーマーベースのモデルとデータセットの両方を改善するために不可欠である。本稿では,Multi-Model Consensus Metric (MMCM) とDeep-based Structure Metricを用いたシーン複雑性評価手法を提案する。実世界(Dronescapes)と合成(Skyscenes)のデータセットを用いて、我々の実験分析により、実世界のシーンは一般的に最先端のビジョントランスフォーマーの間で高いコンセンサスを示し、合成シーンはより多様性を示し、モデルの適応性に挑戦する。結果は、固有複雑さとドメインギャップを下記し、シミュレーション忠実度の向上とモデル一般化の必要性を強調した。この研究は、ドメイン特性とモデル性能の相互作用に関する重要な洞察を与え、航空シーン理解におけるドメイン適応戦略を改善するための経路を提供する。

関連論文リスト

Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-26T11:53:59Z)
Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-29T17:59:45Z)
Feature Based Methods in Domain Adaptation for Object Detection: A Review Paper [0.6437284704257459]
ドメイン適応は、異なるデータ分布を持つターゲットドメインにデプロイされた場合、機械学習モデルの性能を向上させることを目的としている。本総説では, 対人学習, 相違に基づく多分野, 教師学生, アンサンブル, ビジョン言語モデルなど, ドメイン適応のための高度な方法論を考察する。特に合成ドメインシフトを含むシナリオにおいて、ラベル付きデータへの依存を最小限に抑える戦略に特に注意が払われる。
論文参考訳（メタデータ） (2024-12-23T06:34:23Z)
VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision Tuning [53.35114015288077]
我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
論文参考訳（メタデータ） (2024-02-22T11:21:54Z)
Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird's Eye View Segmentation for Connected and Autonomous Driving [49.03947018718156]
協調的な知覚の訓練と推論の段階で利用される統合されたドメイン一般化フレームワークを提案する。また、システム内ドメインアライメント機構を導入し、コネクテッドおよび自律走行車間のドメインの差を減らし、潜在的に排除する。
論文参考訳（メタデータ） (2023-11-28T12:52:49Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文参考訳（メタデータ） (2023-05-25T15:15:03Z)
Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文参考訳（メタデータ） (2023-03-17T23:23:55Z)
Domain Adaptation of Synthetic Driving Datasets for Real-World Autonomous Driving [0.11470070927586014]
特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークは、実世界のデータでテストすると大幅に劣化する。本稿では,このような手法を改良するための新しい手法を提案し,評価する。本稿では,このペア選択にセマンティック・インスペクションを効果的に組み込む手法を提案し,モデルの性能向上に寄与する。
論文参考訳（メタデータ） (2023-02-08T15:51:54Z)
One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文参考訳（メタデータ） (2022-12-14T15:54:15Z)
Style-Hallucinated Dual Consistency Learning for Domain Generalized Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。 SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2022-04-06T02:49:06Z)
Content Disentanglement for Semantically Consistent Synthetic-to-RealDomain Adaptation in Urban Traffic Scenes [39.38387505091648]
合成データ生成は、自動運転における新しい交通シナリオを生成する魅力的なアプローチです。合成データだけで訓練されたディープラーニング技術は、実際のデータでテストされたときに劇的なパフォーマンス低下に遭遇します。本稿では,合成データと実データの間で意味的に一貫性のあるドメイン適応を実現する,教師なしのエンドツーエンドドメイン適応ネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-05-18T17:42:26Z)
Generative Adversarial Transformers [13.633811200719627]
本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。ネットワークは、線形効率の計算を維持しながら、画像間の長距離相互作用を可能にする二部構造を用いる。高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-03-01T18:54:04Z)
Domain Decluttering: Simplifying Images to Mitigate Synthetic-Real Domain Shift and Improve Depth Estimation [16.153683223016973]
本研究では,実際の画像における領域外領域の特定と削除を学習するアテンションモジュールを開発する。削除された領域を視覚化することで、合成と実際のドメインギャップに関する解釈可能な洞察が得られる。
論文参考訳（メタデータ） (2020-02-27T14:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。