論文の概要: Attention Mechanism for Contrastive Learning in GAN-based Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2302.12052v1
- Date: Thu, 23 Feb 2023 14:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 14:47:08.412344
- Title: Attention Mechanism for Contrastive Learning in GAN-based Image-to-Image
Translation
- Title(参考訳): GANを用いた画像間翻訳におけるコントラスト学習の注意機構
- Authors: Hanzhen Zhang, Liguo Zhou, Ruining Wang, Alois Knoll
- Abstract要約: 本稿では,異なる領域にまたがって高品質な画像を生成可能なGANモデルを提案する。
実世界から取得した画像データと3Dゲームからのシミュレーション画像を用いて、Contrastive Learningを利用してモデルを自己指導的に訓練する。
- 参考スコア(独自算出の注目度): 3.90801108629495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using real road testing to optimize autonomous driving algorithms is
time-consuming and capital-intensive. To solve this problem, we propose a
GAN-based model that is capable of generating high-quality images across
different domains. We further leverage Contrastive Learning to train the model
in a self-supervised way using image data acquired in the real world using real
sensors and simulated images from 3D games. In this paper, we also apply an
Attention Mechanism module to emphasize features that contain more information
about the source domain according to their measurement of significance.
Finally, the generated images are used as datasets to train neural networks to
perform a variety of downstream tasks to verify that the approach can fill in
the gaps between the virtual and real worlds.
- Abstract(参考訳): 自動運転アルゴリズムを最適化するために実際の道路テストを使うことは時間がかかり、資本集約的です。
そこで本研究では,異なる領域にまたがって高品質な画像を生成可能なGANモデルを提案する。
さらにContrastive Learningを利用して、実世界から取得した画像データと3Dゲームからのシミュレーション画像を用いて、モデルを自己指導的に訓練する。
本稿では,重要度の測定に基づいて,ソース領域に関するより多くの情報を含む特徴を強調するために,注意機構モジュールも適用する。
最後に、生成された画像はデータセットとして使用され、ニューラルネットワークをトレーニングし、さまざまな下流タスクを実行し、アプローチが仮想世界と現実世界のギャップを埋めることができるかを検証する。
関連論文リスト
- Optical Flow Matters: an Empirical Comparative Study on Fusing Monocular Extracted Modalities for Better Steering [37.46760714516923]
本研究は、単眼カメラからのマルチモーダル情報を利用して、自動運転車のステアリング予測を改善する新しいエンドツーエンド手法を提案する。
本稿では,RGB画像と深度補完情報や光フローデータとの融合に着目し,これらのモダリティを早期・ハイブリッド融合技術によって統合する枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-18T09:36:24Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks [47.07188762367792]
ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。
実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。
結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-03-22T17:49:11Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。
提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。
提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文 参考訳(メタデータ) (2023-03-17T18:00:27Z) - Generative Range Imaging for Learning Scene Priors of 3D LiDAR Data [3.9447103367861542]
本稿では,データレベルドメイン転送に適用可能なLiDARレンジ画像の生成モデルを提案する。
LiDAR測定がポイント・バイ・ポイント・レンジ・イメージングに基づくことから,暗黙的な画像表現に基づく生成対向ネットワークを訓練する。
本モデルの有効性と多様性を,ポイントベースおよびイメージベース・オブ・ザ・アーティファクト・ジェネレーティブ・モデルと比較した。
論文 参考訳(メタデータ) (2022-10-21T06:08:39Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Inertial Sensor Data To Image Encoding For Human Action Recognition [0.0]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。
本稿では,慣性センサデータから活動画像への変換に4種類の空間領域法を用いる。
マルチモーダル・フュージョン・フレームワークを構築するために,2つの空間領域フィルタを結合して各種類のアクティビティ・イメージをマルチモーダル化した。
論文 参考訳(メタデータ) (2021-05-28T01:22:52Z) - Sparse Signal Models for Data Augmentation in Deep Learning ATR [0.8999056386710496]
ドメイン知識を取り入れ,データ集約学習アルゴリズムの一般化能力を向上させるためのデータ拡張手法を提案する。
本研究では,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を活かし,過パラメータモデルフィッティングの問題を解く。
論文 参考訳(メタデータ) (2020-12-16T21:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。