論文の概要: FocDepthFormer: Transformer with LSTM for Depth Estimation from Focus
- arxiv url: http://arxiv.org/abs/2310.11178v1
- Date: Tue, 17 Oct 2023 11:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 16:09:49.509418
- Title: FocDepthFormer: Transformer with LSTM for Depth Estimation from Focus
- Title(参考訳): FocDepthFormer:焦点深度推定のためのLSTM変換器
- Authors: Xueyang Kang, Fengze Han, Abdur Fayjie, Dong Gong
- Abstract要約: 我々は、焦点スタックから深度を推定するトランスフォーマーベースの新しいネットワーク、FocDepthFormerを開発した。
LSTMモジュールは任意のイメージでスタック全体の表現を統合するために学習される。
様々なフォーカス/デフォーカスの低レベル特徴を直接キャプチャするために,初期エンコーダのマルチスケール畳み込みカーネルを提案する。
- 参考スコア(独自算出の注目度): 11.912552972156444
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Depth estimation from focal stacks is a fundamental computer vision problem
that aims to infer depth from focus/defocus cues in the image stacks. Most
existing methods tackle this problem by applying convolutional neural networks
(CNNs) with 2D or 3D convolutions over a set of fixed stack images to learn
features across images and stacks. Their performance is restricted due to the
local properties of the CNNs, and they are constrained to process a fixed
number of stacks consistent in train and inference, limiting the generalization
to the arbitrary length of stacks. To handle the above limitations, we develop
a novel Transformer-based network, FocDepthFormer, composed mainly of a
Transformer with an LSTM module and a CNN decoder. The self-attention in
Transformer enables learning more informative features via an implicit
non-local cross reference. The LSTM module is learned to integrate the
representations across the stack with arbitrary images. To directly capture the
low-level features of various degrees of focus/defocus, we propose to use
multi-scale convolutional kernels in an early-stage encoder. Benefiting from
the design with LSTM, our FocDepthFormer can be pre-trained with abundant
monocular RGB depth estimation data for visual pattern capturing, alleviating
the demand for the hard-to-collect focal stack data. Extensive experiments on
various focal stack benchmark datasets show that our model outperforms the
state-of-the-art models on multiple metrics.
- Abstract(参考訳): 焦点スタックからの深さ推定は、画像スタックのフォーカス/デフォーカスキューから深度を推定することを目的とした基本的なコンピュータビジョン問題である。
既存の手法の多くは、固定スタックイメージの集合の上に2dまたは3d畳み込みを持つ畳み込みニューラルネットワーク(cnns)を適用して、画像とスタック間で機能を学ぶことでこの問題に対処している。
それらの性能はCNNの局所的な性質によって制限されており、列車と推論で一貫性のある固定数のスタックを処理し、一般化を任意のスタックの長さに制限する。
上記の制限に対処するため,LSTMモジュールとCNNデコーダを備えたトランスフォーマーを中心に,新しいトランスフォーマーネットワークであるFocDepthFormerを開発した。
Transformerの自己注意は、暗黙の非ローカルなクロスリファレンスを通じて、より情報的な機能を学ぶことを可能にする。
LSTMモジュールは任意のイメージでスタック全体の表現を統合するために学習される。
様々なフォーカス/デフォーカスの低レベル特徴を直接キャプチャするために,初期エンコーダのマルチスケール畳み込みカーネルを提案する。
LSTMで設計したFocDepthFormerは、視覚的パターンキャプチャーのための豊富な単色RGB深度推定データで事前学習が可能で、難解な焦点スタックデータの需要を軽減できる。
様々な焦点スタックベンチマークデータセットに対する大規模な実験により、我々のモデルは、複数のメトリクスの最先端モデルよりも優れています。
関連論文リスト
- Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Local Conditional Neural Fields for Versatile and Generalizable
Large-Scale Reconstructions in Computational Imaging [4.880408468047162]
我々は,この制限に対処するために,連続的な暗黙的ニューラル表現を活用する,新しいローカル条件ニューラルフィールド(LCNF)フレームワークを導入する。
多重計測によるFPM(Fourier ptychography microscopy)の逆問題に対するLCNFの有用性を実証した。
数個の多重化測定値を用いて,広視野高分解能位相像の高精度な再構成を実証した。
論文 参考訳(メタデータ) (2023-07-12T14:52:31Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。