論文の概要: Is 3D Convolution with 5D Tensors Really Necessary for Video Analysis?
- arxiv url: http://arxiv.org/abs/2407.16514v1
- Date: Tue, 23 Jul 2024 14:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:55:42.972839
- Title: Is 3D Convolution with 5D Tensors Really Necessary for Video Analysis?
- Title(参考訳): 5Dテンソルによる3Dコンボリューションはビデオ解析に本当に必要か?
- Authors: Habib Hajimolahoseini, Walid Ahmed, Austin Wen, Yang Liu,
- Abstract要約: 本稿では,4次元および/または3次元テンソルのみを用いた2次元および/または1次元畳み込みを用いた3次元畳み込みブロックの実装手法を提案する。
私たちのモチベーションは、5Dテンソルを用いた3Dコンボリューションが計算コストが高く、ロボットなどのリアルタイムアプリケーションで使用されるエッジデバイスではサポートされないことです。
- 参考スコア(独自算出の注目度): 4.817356884702073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present a comprehensive study and propose several novel techniques for implementing 3D convolutional blocks using 2D and/or 1D convolutions with only 4D and/or 3D tensors. Our motivation is that 3D convolutions with 5D tensors are computationally very expensive and they may not be supported by some of the edge devices used in real-time applications such as robots. The existing approaches mitigate this by splitting the 3D kernels into spatial and temporal domains, but they still use 3D convolutions with 5D tensors in their implementations. We resolve this issue by introducing some appropriate 4D/3D tensor reshaping as well as new combination techniques for spatial and temporal splits. The proposed implementation methods show significant improvement both in terms of efficiency and accuracy. The experimental results confirm that the proposed spatio-temporal processing structure outperforms the original model in terms of speed and accuracy using only 4D tensors with fewer parameters.
- Abstract(参考訳): 本稿では,4次元および/または3次元テンソルのみを用いた2次元および/または1次元の畳み込みを用いた3次元畳み込みブロックの実装手法を提案する。
私たちのモチベーションは、5Dテンソルを用いた3Dコンボリューションが計算に非常に高価であり、ロボットのようなリアルタイムアプリケーションで使用されるエッジデバイスではサポートされないということです。
既存のアプローチでは、3Dカーネルを空間的および時間的領域に分割することでこれを緩和するが、5Dテンソルを実装した3D畳み込みを使用する。
空間分割と時間分割のための新しい組み合わせ技術と同様に、適切な4D/3Dテンソル変換を導入することで、この問題を解決する。
提案手法は,効率と精度の両面で有意な改善を示した。
実験により,提案した時空間処理構造は,パラメータが少ない4次元テンソルのみを用いて,速度と精度で元のモデルより優れていることを確認した。
関連論文リスト
- Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Hash3D: Training-free Acceleration for 3D Generation [72.88137795439407]
Hash3Dはモデルトレーニングなしでの3D生成の普遍的な加速である。
Hash3Dは、近隣のタイムステップとカメラアングルにまたがる機能マップを効果的にハッシュして再利用することにより、冗長な計算を実質的に防止する。
驚くべきことに、この機能共有機構は生成をスピードアップするだけでなく、合成された3Dオブジェクトの滑らかさとビューの一貫性を高める。
論文 参考訳(メタデータ) (2024-04-09T07:49:30Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski
Engine and Knowledge Distillation Methods [0.0]
本稿では, 知識蒸留技術, 特に3次元深層学習におけるスパーステンソルを応用して, 性能を維持しつつ, モデルサイズを小さくする手法を提案する。
我々は,異なるスパース畳み込みNNの最先端モデルの性能をシミュレートするために,標準的な手法や様々な損失の組み合わせを含む異なる損失関数を分析し,目的を定めている。
論文 参考訳(メタデータ) (2023-05-04T22:19:25Z) - TR3D: Towards Real-Time Indoor 3D Object Detection [6.215404942415161]
TR3Dは、エンドツーエンドで訓練された完全畳み込み3Dオブジェクト検出モデルである。
ポイントクラウドとRGBの両方の入力を利用するため、我々は2Dと3Dの機能の早期融合を導入する。
TR3D+FFと呼ばれる初期の特徴融合モデルでは,SUN RGB-Dデータセット上で既存の3Dオブジェクト検出手法よりも優れている。
論文 参考訳(メタデータ) (2023-02-06T15:25:50Z) - T4DT: Tensorizing Time for Learning Temporal 3D Visual Data [19.418308324435916]
低ランクテンソル圧縮は時間変化符号距離関数を格納・クエリするのに極めてコンパクトであることを示す。
DeepSDFやNeRFのような既存の反復学習ベースのアプローチとは異なり、理論的保証付きクローズドフォームアルゴリズムを用いる。
論文 参考訳(メタデータ) (2022-08-02T12:57:08Z) - Asymmetric 3D Context Fusion for Universal Lesion Detection [55.61873234187917]
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
論文 参考訳(メタデータ) (2021-09-17T16:25:10Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。