論文の概要: Convolutional Neural Network (CNN) vs Visual Transformer (ViT) for
Digital Holography
- arxiv url: http://arxiv.org/abs/2108.09147v1
- Date: Fri, 20 Aug 2021 12:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 17:34:01.032278
- Title: Convolutional Neural Network (CNN) vs Visual Transformer (ViT) for
Digital Holography
- Title(参考訳): デジタルホログラフィのための畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)
- Authors: St\'ephane Cuenat, Rapha\"el Couturier
- Abstract要約: デジタルホログラフィー(DH)では、その振幅と位相を再構成するために、ホログラムから対象距離を抽出することが重要である。
本稿では,Deep Learning (DL) を用いて距離の決定を行う。
2つのディープラーニング(DL)アーキテクチャの比較:畳み込みニューラルネットワーク(CNN)とビジュアルトランスフォーマー(ViT)
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Digital Holography (DH), it is crucial to extract the object distance from
a hologram in order to reconstruct its amplitude and phase. This step is called
auto-focusing and it is conventionally solved by first reconstructing a stack
of images and then by sharpening each reconstructed image using a focus metric
such as entropy or variance. The distance corresponding to the sharpest image
is considered the focal position. This approach, while effective, is
computationally demanding and time-consuming. In this paper, the determination
of the distance is performed by Deep Learning (DL). Two deep learning (DL)
architectures are compared: Convolutional Neural Network (CNN)and Visual
transformer (ViT). ViT and CNN are used to cope with the problem of
auto-focusing as a classification problem. Compared to a first attempt [11] in
which the distance between two consecutive classes was 100{\mu}m, our proposal
allows us to drastically reduce this distance to 1{\mu}m. Moreover, ViT reaches
similar accuracy and is more robust than CNN.
- Abstract(参考訳): デジタルホログラフィー(DH)では、その振幅と位相を再構成するために、ホログラムから対象距離を抽出することが重要である。
このステップはオートフォーカスと呼ばれ、まず画像のスタックを再構成し、エントロピーや分散といった焦点距離を用いて各再構成画像をシャープすることで解決する。
最もシャープな画像に対応する距離を焦点位置とする。
このアプローチは効率的ではあるが、計算的な要求と時間を要する。
本稿では,Deep Learning (DL) を用いて距離の決定を行う。
2つのディープラーニング(DL)アーキテクチャを比較する。畳み込みニューラルネットワーク(CNN)とビジュアルトランスフォーマー(ViT)である。
ViTとCNNは、分類問題としてオートフォーカスの問題に対処するために使用される。
2つの連続するクラス間の距離が100{\mu}mとなる最初の試み [11] と比較して、提案手法により、この距離を1{\mu}mに劇的に削減することができる。さらに、ViTは、CNNよりも精度が良く、より堅牢である。
関連論文リスト
- Enhancing Digital Hologram Reconstruction Using Reverse-Attention Loss for Untrained Physics-Driven Deep Learning Models with Uncertain Distance [10.788482076164314]
未学習のディープラーニング手法におけるオートフォーカス問題に対処するための先駆的なアプローチを提案する。
提案手法は,競合する手法に対する大幅な再構成性能を示す。
例えば、PSNRでは1dB以下であり、SSIMでは0.002以下である。
論文 参考訳(メタデータ) (2024-01-11T01:30:46Z) - Self-Supervised Versus Supervised Training for Segmentation of Organoid
Images [2.6242820867975127]
大量の顕微鏡画像データセットがラベル付けされていないままであり、ディープラーニングアルゴリズムによる効果的な利用を妨げている。
自己教師付き学習(SSL)は、ラベルを必要とせずにメインタスクに類似したプリテキストタスクの下で固有の特徴を学習する、有望なソリューションである。
ResNet50 U-Netは、構造化類似度指数(Structure similarity Index Metric, SSIM)だけで、L1損失と組み合わせてSSIMを用いて、肝臓前駆体オルガノイドのイメージを拡張画像から復元する訓練が最初に行われた。
比較のために、同じU-Netアーキテクチャを使って、2つの教師付きモデルをトレーニングしました。
論文 参考訳(メタデータ) (2023-11-19T01:57:55Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Depth Estimation and Image Restoration by Deep Learning from Defocused
Images [2.6599014990168834]
2-headed Depth Estimation and Deblurring Network (2HDED:NET)は、Defocus(DFD)ネットワークからの従来のDepthを拡張し、deepブランチと同じエンコーダを共有するdeblurringブランチを持つ。
提案手法は,室内と屋外のシーンの2つのベンチマーク(NYU-v2とMake3D)で試験に成功した。
論文 参考訳(メタデータ) (2023-02-21T15:28:42Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Transfer Learning for Estimation of Pendubot Angular Position Using Deep
Neural Networks [0.0]
撮像画像からペンデュボット角位置を推定するために、機械学習に基づくアプローチが導入された。
この課題に対処するために、ディープニューラルネットワークベースのアルゴリズムが導入された。
提案手法は,シャープ画像とぼやけた画像に対して,それぞれ0.02度と0.06度の平均的な絶対誤差を実現する。
論文 参考訳(メタデータ) (2022-01-29T20:20:47Z) - Single image deep defocus estimation and its applications [82.93345261434943]
画像パッチを20レベルの曖昧さの1つに分類するために、ディープニューラルネットワークをトレーニングします。
トレーニングされたモデルは、反復重み付きガイドフィルタを適用して改善するパッチのぼかしを決定するために使用される。
その結果、デフォーカスマップは各ピクセルのぼやけた度合いの情報を運ぶ。
論文 参考訳(メタデータ) (2021-07-30T06:18:16Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - How semantic and geometric information mutually reinforce each other in
ToF object localization [19.47618043504105]
本研究では,光の時間(ToF)センサによって提供される強度・深度情報画像から3Dオブジェクトをローカライズする手法を提案する。
提案手法は,従来のCNNアーキテクチャと比較して,分割と局所化の精度を著しく向上する。
論文 参考訳(メタデータ) (2020-08-27T09:13:26Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。