論文の概要: DIAR: Deep Image Alignment and Reconstruction using Swin Transformers
- arxiv url: http://arxiv.org/abs/2310.11605v1
- Date: Tue, 17 Oct 2023 21:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:31:00.940259
- Title: DIAR: Deep Image Alignment and Reconstruction using Swin Transformers
- Title(参考訳): DIAR:スイニングトランスを用いた深部画像アライメントと再構成
- Authors: Monika Kwiatkowski, Simon Matern, Olaf Hellwich
- Abstract要約: 画像歪みのある画像を含むデータセットを作成する。
我々は、対応する地平線ホモグラフをラベルとして、視点歪みを生成する。
データセットを使用して、Swinトランスフォーマーモデルをトレーニングし、シーケンシャルな画像データを分析します。
- 参考スコア(独自算出の注目度): 3.1000291317724993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When taking images of some occluded content, one is often faced with the
problem that every individual image frame contains unwanted artifacts, but a
collection of images contains all relevant information if properly aligned and
aggregated. In this paper, we attempt to build a deep learning pipeline that
simultaneously aligns a sequence of distorted images and reconstructs them. We
create a dataset that contains images with image distortions, such as lighting,
specularities, shadows, and occlusion. We create perspective distortions with
corresponding ground-truth homographies as labels. We use our dataset to train
Swin transformer models to analyze sequential image data. The attention maps
enable the model to detect relevant image content and differentiate it from
outliers and artifacts. We further explore using neural feature maps as
alternatives to classical key point detectors. The feature maps of trained
convolutional layers provide dense image descriptors that can be used to find
point correspondences between images. We utilize this to compute coarse image
alignments and explore its limitations.
- Abstract(参考訳): ある隠されたコンテンツの画像を撮影する場合、個々の画像フレームが望ましくないアーティファクトを含むという問題に直面することが多いが、適切なアラインメントと集約を行う場合、画像の集合はすべての関連情報を含む。
本稿では,歪んだ画像列を同時に調整し,それらを再構成する深層学習パイプラインの構築を試みる。
我々は,照明,スペキュラリティ,シャドウ,オクルージョンなどの画像歪みのある画像を含むデータセットを作成する。
我々は、対応する接地-真実の同相写像をラベルとして視点歪みを作成する。
データセットを使用して、スウィントランスモデルをトレーニングし、シーケンシャルな画像データを分析する。
注意マップは、モデルが関連する画像コンテンツを検出し、それを異常値やアーティファクトと区別することを可能にする。
さらに、古典的キーポイント検出器の代替としてニューラル特徴写像を用いる方法についても検討する。
訓練された畳み込み層の特徴マップは、画像間の点対応を見つけるために使用できる濃密な画像記述子を提供する。
これを利用して粗い画像アライメントを計算し,その限界を探索する。
関連論文リスト
- ConDL: Detector-Free Dense Image Matching [2.7582789611575897]
本稿では,高密度画像の対応性を推定するためのディープラーニングフレームワークを提案する。
我々の完全畳み込みモデルは画像の高密度な特徴マップを生成し、各ピクセルは複数の画像にマッチするディスクリプタに関連付けられている。
論文 参考訳(メタデータ) (2024-08-05T18:34:15Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - SIDAR: Synthetic Image Dataset for Alignment & Restoration [2.9649783577150837]
エンドツーエンドのディープラーニングモデルのトレーニングと評価に十分なデータを提供するデータセットが不足している。
提案したデータ拡張は,3次元レンダリングを用いてデータの不足を克服するのに役立つ。
得られたデータセットは、画像アライメントとアーティファクト削除を含むさまざまなタスクのトレーニングと評価セットとして機能する。
論文 参考訳(メタデータ) (2023-05-19T23:32:06Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Compressive Sensing with Tensorized Autoencoder [22.89029876274012]
多くの場合、コレクション内の異なるイメージは互いに明瞭なバージョンである。
本研究の目的は,データに先行する構造として,接地木(クリーン)画像にアクセスすることなく画像の復元を行うことである。
本稿では,データに構造的制約を課すために,埋め込み空間上でテンソルリングの分解を施したオートエンコーダを学習することを提案する。
論文 参考訳(メタデータ) (2023-03-10T22:59:09Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - TransFill: Reference-guided Image Inpainting by Merging Multiple Color
and Spatial Transformations [35.9576572490994]
本稿では,対象画像とシーン内容を共有する別のソース画像を参照して,穴を埋めるマルチホモグラフィ変換核融合法であるtransfillを提案する。
色を調整し、各ホモグラフィー歪んだソースイメージにピクセルレベルのワーピングを適用して、ターゲットとの整合性を高めることを学びます。
本手法は,多種多様なベースラインと色差にまたがる画像対の最先端性能を実現し,ユーザ提供画像対に一般化する。
論文 参考訳(メタデータ) (2021-03-29T22:45:07Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。