Fugu-MT 論文翻訳(概要): High-resolution semantically-consistent image-to-image translation

論文の概要: High-resolution semantically-consistent image-to-image translation

arxiv url: http://arxiv.org/abs/2209.06264v1
Date: Tue, 13 Sep 2022 19:08:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-15 13:03:53.302222
Title: High-resolution semantically-consistent image-to-image translation
Title（参考訳）: 高分解能意味一貫性画像-画像間翻訳
Authors: Mikhail Sokolov (1), Christopher Henry (1), Joni Storie (1), Christopher Storie (1), Victor Alhassan (2), Mathieu Turgeon-Pelchat (2) ((1) University of Winnipeg, (2) Canada Centre for Mapping and Earth Observation, Natural Resources Canada)
Abstract要約: 本稿では,スタイル変換フェーズにおける画像のセマンティック一貫性と画素単位の品質を保った教師なし領域適応モデルを提案する。提案モデルでは,SemI2Iモデルと比較してかなりの性能向上を示し,最先端のCyCADAモデルと同様の結果を得た。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deep learning has become one of remote sensing scientists' most efficient computer vision tools in recent years. However, the lack of training labels for the remote sensing datasets means that scientists need to solve the domain adaptation problem to narrow the discrepancy between satellite image datasets. As a result, image segmentation models that are then trained, could better generalize and use an existing set of labels instead of requiring new ones. This work proposes an unsupervised domain adaptation model that preserves semantic consistency and per-pixel quality for the images during the style-transferring phase. This paper's major contribution is proposing the improved architecture of the SemI2I model, which significantly boosts the proposed model's performance and makes it competitive with the state-of-the-art CyCADA model. A second contribution is testing the CyCADA model on the remote sensing multi-band datasets such as WorldView-2 and SPOT-6. The proposed model preserves semantic consistency and per-pixel quality for the images during the style-transferring phase. Thus, the semantic segmentation model, trained on the adapted images, shows substantial performance gain compared to the SemI2I model and reaches similar results as the state-of-the-art CyCADA model. The future development of the proposed method could include ecological domain transfer, {\em a priori} evaluation of dataset quality in terms of data distribution, or exploration of the inner architecture of the domain adaptation model.
Abstract（参考訳）: 近年、深層学習はリモートセンシング科学者の最も効率的なコンピュータビジョンツールの1つとなっている。しかし、リモートセンシングデータセットのトレーニングラベルの欠如は、科学者が衛星画像データセット間の差を狭めるためにドメイン適応問題を解く必要があることを意味する。その結果、トレーニングされたイメージセグメンテーションモデルは、新しいラベルを必要とせず、既存のラベルセットをより一般化して使用することができる。本研究は,画像のセマンティック一貫性と画素単位の品質を,スタイル変換フェーズ中に保持する教師なし領域適応モデルを提案する。本稿では,SemI2Iモデルの改良アーキテクチャを提案することで,提案モデルの性能を大幅に向上させ,最先端のCyCADAモデルと競合させる。第2のコントリビューションは、WorldView-2やSPOT-6のようなリモートセンシングマルチバンドデータセット上でCyCADAモデルをテストすることである。提案モデルでは,画像の意味的一貫性と画素ごとの品質が保たれる。したがって、適応画像に基づいて訓練されたセマンティックセグメンテーションモデルは、semi2iモデルと比較してかなりの性能向上を示し、最先端のcycadaモデルと同様の結果が得られる。提案手法の将来の開発には, 生態的ドメイン転送, データ分布の観点からのデータセット品質の評価, ドメイン適応モデルの内部アーキテクチャの探索などが含まれる。

関連論文リスト

MBInception: A new Multi-Block Inception Model for Enhancing Image Processing Efficiency [3.3748750222488657]
本稿では,畳み込みニューラルネットワークフレームワーク内で連続する3つの開始ブロックを用いた,革新的な画像分類モデルを提案する。モデルとVisual Geometry Group、Residual Network、MobileNetといった確立したアーキテクチャを比較した。その結果、私たちの新しいモデルは、さまざまなデータセットで一貫してそのモデルよりも優れています。
論文参考訳（メタデータ） (2024-12-18T10:46:04Z)
FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文参考訳（メタデータ） (2024-12-02T12:08:40Z)
Controlling Human Shape and Pose in Text-to-Image Diffusion Models via Domain Adaptation [1.3654846342364308]
本研究では、事前訓練されたテキスト・画像拡散モデルにおいて、人間の形状とポーズを条件付きで制御する手法を提案する。これらの拡散モデルを微調整して新しい条件に適合させるには、大きなデータセットと高品質なアノテーションが必要である。合成条件情報を分離することで画像品質を維持するドメイン適応手法を提案する。
論文参考訳（メタデータ） (2024-11-07T14:02:41Z)
Semantic Segmentation for Real-World and Synthetic Vehicle's Forward-Facing Camera Images [0.8562182926816566]
これは、車両の前向きカメラからの実世界の画像と合成画像の両方におけるセマンティックセグメンテーション問題の解決策である。我々は、さまざまな屋外状況の様々な領域でよく機能するロバストモデルの構築に集中する。本稿では,意味的セグメンテーション問題における領域適応のための実世界のデータと合成データの併用の有効性について検討する。
論文参考訳（メタデータ） (2024-07-07T17:28:45Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文参考訳（メタデータ） (2024-06-08T10:43:49Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文参考訳（メタデータ） (2023-02-07T07:13:53Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)
Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。 GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文参考訳（メタデータ） (2020-06-11T16:19:41Z)
Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文参考訳（メタデータ） (2020-05-05T08:50:17Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。