論文の概要: Frequency-domain Learning for Volumetric-based 3D Data Perception
- arxiv url: http://arxiv.org/abs/2302.08595v1
- Date: Thu, 16 Feb 2023 21:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:35:19.222744
- Title: Frequency-domain Learning for Volumetric-based 3D Data Perception
- Title(参考訳): ボリュームベース3次元データ知覚のための周波数領域学習
- Authors: Zifan Yu, Suya You and Fengbo Ren
- Abstract要約: 本研究では,3次元CNNのスペクトルバイアスと精度・インプット・データサイズのトレードオフを明らかにするために,3次元データ知覚のための周波数領域学習について検討する。
実験の結果,周波数領域学習はボリュームベース3D入力のサイズを大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 9.161353418331244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Frequency-domain learning draws attention due to its superior tradeoff
between inference accuracy and input data size. Frequency-domain learning in 2D
computer vision tasks has shown that 2D convolutional neural networks (CNN)
have a stationary spectral bias towards low-frequency channels so that
high-frequency channels can be pruned with no or little accuracy degradation.
However, frequency-domain learning has not been studied in the context of 3D
CNNs with 3D volumetric data. In this paper, we study frequency-domain learning
for volumetric-based 3D data perception to reveal the spectral bias and the
accuracy-input-data-size tradeoff of 3D CNNs. Our study finds that 3D CNNs are
sensitive to a limited number of critical frequency channels, especially
low-frequency channels. Experiment results show that frequency-domain learning
can significantly reduce the size of volumetric-based 3D inputs (based on
spectral bias) while achieving comparable accuracy with conventional
spatial-domain learning approaches. Specifically, frequency-domain learning is
able to reduce the input data size by 98% in 3D shape classification while
limiting the average accuracy drop within 2%, and by 98% in the 3D point cloud
semantic segmentation with a 1.48% mean-class accuracy improvement while
limiting the mean-class IoU loss within 1.55%. Moreover, by learning from
higher-resolution 3D data (i.e., 2x of the original image in the spatial
domain), frequency-domain learning improves the mean-class accuracy and
mean-class IoU by 3.04% and 0.63%, respectively, while achieving an 87.5% input
data size reduction in 3D point cloud semantic segmentation.
- Abstract(参考訳): 周波数領域学習は、推論精度と入力データサイズとのトレードオフが優れているために注目される。
2次元コンピュータビジョンタスクにおける周波数領域学習は、2次元畳み込みニューラルネットワーク(CNN)が低周波チャネルに対して定常的なスペクトルバイアスを持つことを示した。
しかし,3次元体積データを用いた3次元CNNでは周波数領域学習は研究されていない。
本稿では,3次元cnnのスペクトルバイアスと精度入力データサイズトレードオフを明らかにするために,ボリュームベース3次元データ知覚のための周波数領域学習について検討する。
本研究により,3次元CNNは限られた周波数チャネル,特に低周波チャネルに敏感であることが判明した。
実験の結果、周波数領域学習は、従来の空間領域学習手法と同等の精度で、ボリュームベースの3次元入力(スペクトルバイアスに基づく)を著しく削減できることがわかった。
具体的には、周波数領域学習により、平均精度低下を2%に抑えながら入力データサイズを98%削減し、平均クラスIoU損失を1.55%に抑えながら平均クラス精度を1.48%改善した3Dポイントクラウドセマンティックセグメンテーションにおいて98%削減することができる。
さらに、高解像度の3Dデータ(つまり空間領域の原画像の2倍)から学習することにより、平均値精度と平均値IoUをそれぞれ3.04%、0.63%向上させ、3Dポイントクラウドセマンティックセグメンテーションにおいて87.5%の入力データサイズ削減を実現する。
関連論文リスト
- NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - 3D Convolutional Neural Networks for Dendrite Segmentation Using
Fine-Tuning and Hyperparameter Optimization [0.06323908398583082]
我々は3D畳み込みニューラルネットワーク(CNN)をトレーニングし、3Dデータセットをセグメント化する。
訓練された3D CNNは、わずか60秒で852 x 852 x 250のボクセル3Dボリュームを分割することができる。
論文 参考訳(メタデータ) (2022-05-02T19:20:05Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - RANP: Resource Aware Neuron Pruning at Initialization for 3D CNNs [32.054160078692036]
3D CNNを高いスパーシティレベルにプルーンするResource Aware Neuron Pruning (RANP)アルゴリズムを紹介します。
提案アルゴリズムは, FLOPの約50%-95%の削減, メモリの35%-80%の削減を実現している。
論文 参考訳(メタデータ) (2021-02-09T04:35:29Z) - Uniformizing Techniques to Process CT scans with 3D CNNs for
Tuberculosis Prediction [5.270882613122642]
深部2次元畳み込みニューラルネットワーク(CNN)を用いたボリュームデータにおける医用画像解析への共通アプローチ
個々のスライスを2D CNNで独立に扱うと、意図したタスクのパフォーマンスが低下する深度情報を意図的に破棄する。
上記の問題に対処するためのボリューム均一化手法のセットを評価する。
画像情報のみを活用する全手法に勝るテストセットに対して,曲線下面積 (AUC) と二分分類精度 (ACC) を67.5%と報告した。
論文 参考訳(メタデータ) (2020-07-26T21:53:47Z) - Depthwise Spatio-Temporal STFT Convolutional Neural Networks for Human
Action Recognition [42.400429835080416]
従来の3D畳み込みニューラルネットワーク(CNN)は計算コストが高く、メモリ集約性があり、過度に適合する傾向がある。
本稿では,3次元CNNにおける3次元畳み込み層の代替として機能する新しい畳み込みブロックのクラスを提案する。
Some-something v1, v2, Jester, Diving Kinetics-400, UCF 101, HMDB 51を含む7つの行動認識データセットについて,STFTブロックをベースとした3D CNNが,現状と比較して同等以上の性能で達成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-22T12:26:04Z) - 4D Spatio-Temporal Convolutional Networks for Object Position Estimation
in OCT Volumes [69.62333053044712]
3次元畳み込みニューラルネットワーク(CNN)は、単一のOCT画像を用いたマーカーオブジェクトのポーズ推定に有望な性能を示した。
我々は3次元CNNを4次元時間CNNに拡張し、マーカーオブジェクト追跡のための追加の時間情報の影響を評価する。
論文 参考訳(メタデータ) (2020-07-02T12:02:20Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z) - Learning in the Frequency Domain [20.045740082113845]
精度を損なわずに除去できる自明な周波数成分を同定する学習ベース周波数選択法を提案する。
実験の結果,静的チャネル選択を用いた周波数領域での学習は,従来の空間ダウンサンプリング手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2020-02-27T19:57:55Z) - 2.75D: Boosting learning by representing 3D Medical imaging to 2D
features for small data [54.223614679807994]
3D畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングタスクにおいて、2D CNNよりも優れたパフォーマンスを示し始めている。
3D CNNにトランスファー学習を適用することは、パブリックにトレーニング済みの3Dモデルがないために困難である。
本研究では,ボリュームデータの2次元戦略的表現,すなわち2.75Dを提案する。
その結果,2次元CNNネットワークをボリューム情報学習に用いることが可能となった。
論文 参考訳(メタデータ) (2020-02-11T08:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。