論文の概要: CAKES: Channel-wise Automatic KErnel Shrinking for Efficient 3D Networks
- arxiv url: http://arxiv.org/abs/2003.12798v3
- Date: Wed, 16 Dec 2020 19:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 23:56:29.585077
- Title: CAKES: Channel-wise Automatic KErnel Shrinking for Efficient 3D Networks
- Title(参考訳): CAKES: 効率的な3DネットワークのためのチャネルワイドなKErnelシンキング
- Authors: Qihang Yu, Yingwei Li, Jieru Mei, Yuyin Zhou, Alan L. Yuille
- Abstract要約: 3次元畳み込みニューラルネットワーク(CNN)は,映像解析やボリューム画像認識などの3次元シーン理解に広く応用されている。
本稿では,標準的な3Dコンボリューションを一連の経済活動に縮小させることで,効率的な3D学習を実現するために,チャネルワイドなKErnel Shrinking(CAKES)を提案する。
- 参考スコア(独自算出の注目度): 87.02416370081123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Convolution Neural Networks (CNNs) have been widely applied to 3D scene
understanding, such as video analysis and volumetric image recognition.
However, 3D networks can easily lead to over-parameterization which incurs
expensive computation cost. In this paper, we propose Channel-wise Automatic
KErnel Shrinking (CAKES), to enable efficient 3D learning by shrinking standard
3D convolutions into a set of economic operations e.g., 1D, 2D convolutions.
Unlike previous methods, CAKES performs channel-wise kernel shrinkage, which
enjoys the following benefits: 1) enabling operations deployed in every layer
to be heterogeneous, so that they can extract diverse and complementary
information to benefit the learning process; and 2) allowing for an efficient
and flexible replacement design, which can be generalized to both
spatial-temporal and volumetric data. Further, we propose a new search space
based on CAKES, so that the replacement configuration can be determined
automatically for simplifying 3D networks. CAKES shows superior performance to
other methods with similar model size, and it also achieves comparable
performance to state-of-the-art with much fewer parameters and computational
costs on tasks including 3D medical imaging segmentation and video action
recognition. Codes and models are available at
https://github.com/yucornetto/CAKES
- Abstract(参考訳): 3次元畳み込みニューラルネットワーク(CNN)は,映像解析やボリューム画像認識などの3次元シーン理解に広く応用されている。
しかし、3Dネットワークは容易に過パラメータ化につながり、高価な計算コストを発生させる。
本稿では,チャネルワイドなKErnel Shrinking(CAKES)を提案し,標準的な3D畳み込みを1D,2D畳み込みなどの一連の経済操作に縮小することで,効率的な3D学習を実現する。
以前の方法とは異なり、CAKESはチャネルワイドのカーネル収縮を行い、以下の利点を享受する。
1) 各レイヤに展開する操作を異質にすることで,学習プロセスの恩恵を受けるために多様かつ相補的な情報を抽出することができる。
2)空間時間データと体積データの両方に一般化できる効率的で柔軟な代替設計を可能にする。
さらに,CAKESに基づく新しい検索空間を提案し,置換構成を自動的に決定して3Dネットワークを簡素化する。
CAKESは、類似のモデルサイズを持つ他の手法よりも優れた性能を示し、また、3次元医用画像分割やビデオアクション認識といったタスクにおけるパラメータや計算コストをはるかに少なくして、最先端技術に匹敵する性能を達成する。
コードとモデルはhttps://github.com/yucornetto/cakesで入手できる。
関連論文リスト
- Large Generative Model Assisted 3D Semantic Communication [51.17527319441436]
本稿では,GAM-3DSC(Generative AI Model Assisted 3D SC)システムを提案する。
まず,ユーザ要求に基づいて3次元シナリオからキーセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを抽出する。
次に、これらの多視点画像を符号化するための適応意味圧縮モデル(ASCM)を提案する。
最後に、物理チャネルのチャネル状態情報(CSI)を推定・精査するために、条件付き生成逆数ネットワークと拡散モデル支援チャネル推定(GDCE)を設計する。
論文 参考訳(メタデータ) (2024-03-09T03:33:07Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。
スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。
提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - 3D Self-Supervised Methods for Medical Imaging [7.65168530693281]
本稿では,プロキシタスクの形式で,5種類の自己教師型手法の3次元バージョンを提案する。
提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にし,専門家のアノテーションに必要なコストを削減することを目的としている。
開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。
論文 参考訳(メタデータ) (2020-06-06T09:56:58Z) - Self-Supervised Feature Extraction for 3D Axon Segmentation [7.181047714452116]
既存の学習ベースの3D脳画像の軸索を自動的に追跡する手法は、手動で注釈付けされたセグメンテーションラベルに依存することが多い。
本研究では、軸索の管状構造を利用してラベルのないデータから特徴抽出器を構築する自己教師付き補助タスクを提案する。
単一ニューロンであるJanliaデータセットであるShielD PVGPeデータセットとBigNeuron Projectの両方で,3次元U-Netモデルよりも優れたセグメンテーション性能を示す。
論文 参考訳(メタデータ) (2020-04-20T20:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。