論文の概要: FocDepthFormer: Transformer with LSTM for Depth Estimation from Focus
- arxiv url: http://arxiv.org/abs/2310.11178v1
- Date: Tue, 17 Oct 2023 11:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 16:09:49.509418
- Title: FocDepthFormer: Transformer with LSTM for Depth Estimation from Focus
- Title(参考訳): FocDepthFormer:焦点深度推定のためのLSTM変換器
- Authors: Xueyang Kang, Fengze Han, Abdur Fayjie, Dong Gong
- Abstract要約: 我々は、焦点スタックから深度を推定するトランスフォーマーベースの新しいネットワーク、FocDepthFormerを開発した。
LSTMモジュールは任意のイメージでスタック全体の表現を統合するために学習される。
様々なフォーカス/デフォーカスの低レベル特徴を直接キャプチャするために,初期エンコーダのマルチスケール畳み込みカーネルを提案する。
- 参考スコア(独自算出の注目度): 11.912552972156444
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Depth estimation from focal stacks is a fundamental computer vision problem
that aims to infer depth from focus/defocus cues in the image stacks. Most
existing methods tackle this problem by applying convolutional neural networks
(CNNs) with 2D or 3D convolutions over a set of fixed stack images to learn
features across images and stacks. Their performance is restricted due to the
local properties of the CNNs, and they are constrained to process a fixed
number of stacks consistent in train and inference, limiting the generalization
to the arbitrary length of stacks. To handle the above limitations, we develop
a novel Transformer-based network, FocDepthFormer, composed mainly of a
Transformer with an LSTM module and a CNN decoder. The self-attention in
Transformer enables learning more informative features via an implicit
non-local cross reference. The LSTM module is learned to integrate the
representations across the stack with arbitrary images. To directly capture the
low-level features of various degrees of focus/defocus, we propose to use
multi-scale convolutional kernels in an early-stage encoder. Benefiting from
the design with LSTM, our FocDepthFormer can be pre-trained with abundant
monocular RGB depth estimation data for visual pattern capturing, alleviating
the demand for the hard-to-collect focal stack data. Extensive experiments on
various focal stack benchmark datasets show that our model outperforms the
state-of-the-art models on multiple metrics.
- Abstract(参考訳): 焦点スタックからの深さ推定は、画像スタックのフォーカス/デフォーカスキューから深度を推定することを目的とした基本的なコンピュータビジョン問題である。
既存の手法の多くは、固定スタックイメージの集合の上に2dまたは3d畳み込みを持つ畳み込みニューラルネットワーク(cnns)を適用して、画像とスタック間で機能を学ぶことでこの問題に対処している。
それらの性能はCNNの局所的な性質によって制限されており、列車と推論で一貫性のある固定数のスタックを処理し、一般化を任意のスタックの長さに制限する。
上記の制限に対処するため,LSTMモジュールとCNNデコーダを備えたトランスフォーマーを中心に,新しいトランスフォーマーネットワークであるFocDepthFormerを開発した。
Transformerの自己注意は、暗黙の非ローカルなクロスリファレンスを通じて、より情報的な機能を学ぶことを可能にする。
LSTMモジュールは任意のイメージでスタック全体の表現を統合するために学習される。
様々なフォーカス/デフォーカスの低レベル特徴を直接キャプチャするために,初期エンコーダのマルチスケール畳み込みカーネルを提案する。
LSTMで設計したFocDepthFormerは、視覚的パターンキャプチャーのための豊富な単色RGB深度推定データで事前学習が可能で、難解な焦点スタックデータの需要を軽減できる。
様々な焦点スタックベンチマークデータセットに対する大規模な実験により、我々のモデルは、複数のメトリクスの最先端モデルよりも優れています。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文 参考訳(メタデータ) (2022-11-20T20:00:21Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。