Fugu-MT 論文翻訳(概要): DarSwin: Distortion Aware Radial Swin Transformer

論文の概要: DarSwin: Distortion Aware Radial Swin Transformer

arxiv url: http://arxiv.org/abs/2304.09691v2
Date: Fri, 18 Aug 2023 17:17:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 00:05:48.815719
Title: DarSwin: Distortion Aware Radial Swin Transformer
Title（参考訳）: darswin:歪みを考慮したラジアルスウィン変圧器
Authors: Akshaya Athwale, Arman Afrasiyabi, Justin Lague, Ichrak Shili, Ola Ahmad and Jean-Francois Lalonde
Abstract要約: 広角レンズによる歪みを自動的に適応するトランスモデルを提案する。我々は、DarSwinが異なる広角レンズの見えざる歪みに対してゼロショット適応を行うことができる実験を通して示す。
参考スコア（独自算出の注目度）: 5.827741105954225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Wide-angle lenses are commonly used in perception tasks requiring a large field of view. Unfortunately, these lenses produce significant distortions making conventional models that ignore the distortion effects unable to adapt to wide-angle images. In this paper, we present a novel transformer-based model that automatically adapts to the distortion produced by wide-angle lenses. We leverage the physical characteristics of such lenses, which are analytically defined by the radial distortion profile (assumed to be known), to develop a distortion aware radial swin transformer (DarSwin). In contrast to conventional transformer-based architectures, DarSwin comprises a radial patch partitioning, a distortion-based sampling technique for creating token embeddings, and an angular position encoding for radial patch merging. We validate our method on classification tasks using synthetically distorted ImageNet data and show through extensive experiments that DarSwin can perform zero-shot adaptation to unseen distortions of different wide-angle lenses. Compared to other baselines, DarSwin achieves the best results (in terms of Top-1 accuracy) with significant gains when trained on bounded levels of distortions (very-low, low, medium, and high) and tested on all including out-of-distribution distortions. The code and models are publicly available at https://lvsn.github.io/darswin/
Abstract（参考訳）: 広角レンズは広い視野を必要とする知覚タスクで一般的に使用される。残念ながら、これらのレンズは、広角画像に適応できない歪み効果を無視する従来のモデルに顕著な歪みをもたらす。本稿では,広角レンズの歪みに自動的に適応する変圧器モデルを提案する。我々は、放射歪プロファイルによって解析的に定義されるようなレンズの物理的特性を利用して、歪みを意識した放射歪変換器(DarSwin)を開発する。従来のトランスフォーマーベースのアーキテクチャとは対照的に、darswinはラジアルパッチパーティショニング、トークン埋め込みを作成するための歪みベースのサンプリング技術、ラジアルパッチマージのための角位置エンコーディングを備えている。本研究では,合成歪画像ネットデータを用いて分類課題の検証を行い,darswin が異なる広角レンズの非知覚歪みに対してゼロショット適応できることを示す。他のベースラインと比較すると、darswinは(top-1の正確さで)最高の結果を達成し、限定された歪(非常に低い、低い、中、高い)のレベルを訓練し、分散歪を含むすべてでテストした。コードとモデルはhttps://lvsn.github.io/darswin/で公開されている。

関連論文リスト

QueryCDR: Query-Based Controllable Distortion Rectification Network for Fisheye Images [18.1151922567701]
魚眼画像(QueryCDR)のための新しいクエリベース制御可能な歪み補正ネットワークを提案する。本稿では、まず、異なる歪み度に対する潜時空間関係を学習可能な一連のクエリとして定義するDLQM(Distortion-aware Learnable Query Mechanism)を提案する。次に,2種類の制御可能な変調ブロックを提案し,制御条件が歪み特性の変調をより良く導けるようにした。
論文参考訳（メタデータ） (2024-12-18T04:34:46Z)
DarSwin-Unet: Distortion Aware Encoder-Decoder Architecture [13.412728770638465]
広角レンズの歪みに適応するエンコーダデコーダモデルを提案する。分類タスクのみを実行するオリジナルのモデルとは対照的に,画素レベルのタスク用に設計されたU-NetアーキテクチャDarSwin-Unetを導入する。提案手法により,広角魚眼画像における画素レベルのタスクを処理できるモデル能力が向上し,実世界への応用がより効果的になる。
論文参考訳（メタデータ） (2024-07-24T14:52:18Z)
Convolution kernel adaptation to calibrated fisheye [45.90423821963144]
畳み込み核は畳み込みニューラルネットワーク(CNN)の基本構造成分である本稿では,カメラのキャリブレーションを利用してコンボリューションカーネルを変形させ,歪みに適応させる手法を提案する。小型のデータセットで簡単な微調整を施すことで,漁獲魚のネットワーク性能が向上することを示す。
論文参考訳（メタデータ） (2024-02-02T14:44:50Z)
CNN Injected Transformer for Image Exposure Correction [20.282217209520006]
畳み込みに基づく以前の露光補正法は、しばしば画像の露光偏差を生じさせる。本稿では,CNN と Transformer の個々の強度を同時に活用する CNN インジェクトトランス (CIT) を提案する。露光補正のためのハイブリッドアーキテクチャ設計に加えて、空間コヒーレンスを改善し、潜在的な色偏差を補正するために、慎重に定式化された損失関数のセットを適用する。
論文参考訳（メタデータ） (2023-09-08T14:53:00Z)
RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文参考訳（メタデータ） (2023-01-04T15:12:57Z)
Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2022-05-06T16:27:14Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
SIR: Self-supervised Image Rectification via Seeing the Same Scene from Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文参考訳（メタデータ） (2020-11-30T08:23:25Z)
Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文参考訳（メタデータ） (2020-10-30T17:28:40Z)
A Deep Ordinal Distortion Estimation Approach for Distortion Rectification [62.72089758481803]
より高精度なパラメータを効率良く得る新しい歪み補正手法を提案する。本研究では, 局所言語関連推定ネットワークを設計し, 順序歪みを学習し, 現実的な歪み分布を近似する。歪み情報の冗長性を考慮すると,本手法では歪み画像の一部のみを用いて順序方向の歪み推定を行う。
論文参考訳（メタデータ） (2020-07-21T10:03:42Z)
UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a Generic Framework for Handling Common Camera Distortion Models [8.484676769284578]
本研究では,未修正単眼ビデオから深度,ユークリッド距離,および視覚計測を推定するための,汎用的な規模対応型自己教師パイプラインを提案する。提案アルゴリズムは,KITTI修正データセットでさらに評価され,最先端の結果が得られた。
論文参考訳（メタデータ） (2020-07-13T20:35:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。