論文の概要: T4DT: Tensorizing Time for Learning Temporal 3D Visual Data
- arxiv url: http://arxiv.org/abs/2208.01421v1
- Date: Tue, 2 Aug 2022 12:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:20:52.717933
- Title: T4DT: Tensorizing Time for Learning Temporal 3D Visual Data
- Title(参考訳): T4DT: 時間的3次元視覚データ学習のためのテンソル化時間
- Authors: Mikhail Usvyatsov, Rafael Ballester-Rippoll, Lina Bashaeva, Konrad
Schindler, Gonzalo Ferrer, Ivan Oseledets
- Abstract要約: 低ランクテンソル圧縮は時間変化符号距離関数を格納・クエリするのに極めてコンパクトであることを示す。
DeepSDFやNeRFのような既存の反復学習ベースのアプローチとは異なり、理論的保証付きクローズドフォームアルゴリズムを用いる。
- 参考スコア(独自算出の注目度): 19.418308324435916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike 2D raster images, there is no single dominant representation for 3D
visual data processing. Different formats like point clouds, meshes, or
implicit functions each have their strengths and weaknesses. Still, grid
representations such as signed distance functions have attractive properties
also in 3D. In particular, they offer constant-time random access and are
eminently suitable for modern machine learning. Unfortunately, the storage size
of a grid grows exponentially with its dimension. Hence they often exceed
memory limits even at moderate resolution. This work explores various low-rank
tensor formats, including the Tucker, tensor train, and quantics tensor train
decompositions, to compress time-varying 3D data. Our method iteratively
computes, voxelizes, and compresses each frame's truncated signed distance
function and applies tensor rank truncation to condense all frames into a
single, compressed tensor that represents the entire 4D scene. We show that
low-rank tensor compression is extremely compact to store and query
time-varying signed distance functions. It significantly reduces the memory
footprint of 4D scenes while surprisingly preserving their geometric quality.
Unlike existing iterative learning-based approaches like DeepSDF and NeRF, our
method uses a closed-form algorithm with theoretical guarantees.
- Abstract(参考訳): 2dラスター画像とは異なり、3dビジュアルデータ処理に支配的な表現は存在しない。
ポイントクラウドやメッシュ、暗黙の関数といったさまざまなフォーマットには、それぞれ強みと弱みがある。
それでも、符号付き距離関数のような格子表現は、3Dでも魅力的な性質を持つ。
特に、一定時間ランダムアクセスを提供し、現代の機械学習に非常に適している。
残念ながら、グリッドのストレージサイズはその次元とともに指数関数的に大きくなる。
そのため、適度な解像度でもメモリ制限を超えることが多い。
この研究は、タッカー、テンソルトレイン、量子テンソルトレイン分解などの様々な低ランクテンソルフォーマットを調査し、時間変化した3Dデータを圧縮する。
本手法は,各フレームの符号付き距離関数を反復的に計算し,ボクセライズし,圧縮し,テンソルランクの切り込みを施し,全フレームを4次元シーン全体を表す単一の圧縮テンソルに凝縮する。
低ランクテンソル圧縮は、時間変化符号付き距離関数を格納および問い合わせするのに非常にコンパクトである。
4dシーンのメモリフットプリントを大幅に削減し、幾何学的品質を驚くほど維持する。
DeepSDFやNeRFのような既存の反復学習ベースのアプローチとは異なり、理論的保証付きクローズドフォームアルゴリズムを用いる。
関連論文リスト
- Is 3D Convolution with 5D Tensors Really Necessary for Video Analysis? [4.817356884702073]
本稿では,4次元および/または3次元テンソルのみを用いた2次元および/または1次元畳み込みを用いた3次元畳み込みブロックの実装手法を提案する。
私たちのモチベーションは、5Dテンソルを用いた3Dコンボリューションが計算コストが高く、ロボットなどのリアルタイムアプリケーションで使用されるエッジデバイスではサポートされないことです。
論文 参考訳(メタデータ) (2024-07-23T14:30:51Z) - Coarse-To-Fine Tensor Trains for Compact Visual Representations [19.216356079910533]
「延長アップサンプリングトレイン」は粗い方法でテンソルトレイン表現を学習する新しい方法である。
我々は,(1)圧縮,(2)の3つの軸に沿った表現を評価する。
denoising 機能と (3) 画像補完機能。
論文 参考訳(メタデータ) (2024-06-06T17:59:23Z) - 3D Compression Using Neural Fields [90.24458390334203]
我々は3次元データに対する新しいNFベースの圧縮アルゴリズムを提案する。
本手法は,メッシュだけでなく3次元点雲上の幾何学的圧縮も優れていることを示す。
圧縮アルゴリズムを拡張して3Dデータの幾何と属性(色など)を圧縮するのは簡単である。
論文 参考訳(メタデータ) (2023-11-21T21:36:09Z) - TensorCodec: Compact Lossy Compression of Tensors without Strong Data
Assumptions [22.937900567884796]
TENSORCODECは、必ずしも強い入力データ仮定に従わない一般的なテンソルに対する損失圧縮アルゴリズムである。
8つの実世界のデータセットの解析と実験は、TENSORCODECが(a)簡潔であることを示す。
圧縮速度は7.38倍で、同様のリコンストラクションエラーの最大のライバルである。
論文 参考訳(メタデータ) (2023-09-19T04:48:01Z) - Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski
Engine and Knowledge Distillation Methods [0.0]
本稿では, 知識蒸留技術, 特に3次元深層学習におけるスパーステンソルを応用して, 性能を維持しつつ, モデルサイズを小さくする手法を提案する。
我々は,異なるスパース畳み込みNNの最先端モデルの性能をシミュレートするために,標準的な手法や様々な損失の組み合わせを含む異なる損失関数を分析し,目的を定めている。
論文 参考訳(メタデータ) (2023-05-04T22:19:25Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - Low-Rank Tensor Function Representation for Multi-Dimensional Data
Recovery [52.21846313876592]
低ランクテンソル関数表現(LRTFR)は、無限解像度でメッシュグリッドを超えてデータを連続的に表現することができる。
テンソル関数に対する2つの基本的な概念、すなわちテンソル関数ランクとローランクテンソル関数分解を開発する。
提案手法は,最先端手法と比較して,提案手法の優越性と汎用性を裏付けるものである。
論文 参考訳(メタデータ) (2022-12-01T04:00:38Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。
ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。
Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文 参考訳(メタデータ) (2020-11-03T02:57:01Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。