論文の概要: SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction
with Run Length Encoding
- arxiv url: http://arxiv.org/abs/2303.16293v1
- Date: Tue, 28 Mar 2023 20:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 16:52:07.190034
- Title: SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction
with Run Length Encoding
- Title(参考訳): SnakeVoxFormer: 実行長符号化によるトランスフォーマーベースシングルイメージ\\Voxel再構成
- Authors: Jae Joong Lee, Bedrich Benes
- Abstract要約: SnakeVoxFormerは、トランスフォーマーを用いた単一の画像から、ボクセル空間内での3Dオブジェクト再構成である。
異なるボクセルトラバース戦略がエンコーディングと再構築の効果に与える影響を示す。
- 参考スコア(独自算出の注目度): 9.691609196086015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning-based 3D object reconstruction has achieved unprecedented
results. Among those, the transformer deep neural model showed outstanding
performance in many applications of computer vision. We introduce
SnakeVoxFormer, a novel, 3D object reconstruction in voxel space from a single
image using the transformer. The input to SnakeVoxFormer is a 2D image, and the
result is a 3D voxel model. The key novelty of our approach is in using the
run-length encoding that traverses (like a snake) the voxel space and encodes
wide spatial differences into a 1D structure that is suitable for transformer
encoding. We then use dictionary encoding to convert the discovered RLE blocks
into tokens that are used for the transformer. The 1D representation is a
lossless 3D shape data compression method that converts to 1D data that use
only about 1% of the original data size. We show how different voxel traversing
strategies affect the effect of encoding and reconstruction. We compare our
method with the state-of-the-art for 3D voxel reconstruction from images and
our method improves the state-of-the-art methods by at least 2.8% and up to
19.8%.
- Abstract(参考訳): 深層学習に基づく3Dオブジェクト再構成は前例のない成果を上げている。
その中でも、トランスフォーマーディープニューラルモデルはコンピュータビジョンの多くの応用において優れた性能を示した。
SnakeVoxFormerは、トランスを用いた単一の画像から、ボクセル空間における新しい3次元オブジェクト再構成である。
SnakeVoxFormerへの入力は2D画像であり、結果は3Dボクセルモデルである。
本手法の重要な特徴は,voxel空間を(蛇のように)横断し,トランスフォーマーエンコーディングに適した1次元構造に広い空間差を符号化するラン長エンコーディングを使用することである。
次に辞書エンコーディングを用いて、発見したRLEブロックを変換器に使用するトークンに変換する。
1D表現は、元のデータサイズの約1%しか使用していない1Dデータに変換する、ロスレスな3D形状データ圧縮方法である。
異なるボクセルトラバース戦略がエンコーディングと再構築の効果に与える影響を示す。
本手法は画像からの3次元ボクセル再構成のための最先端技術と比較し,少なくとも2.8%,最大19.8%改善した。
関連論文リスト
- SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - DIG3D: Marrying Gaussian Splatting with Deformable Transformer for Single Image 3D Reconstruction [12.408610403423559]
本稿では,3次元オブジェクト再構成と新しいビュー合成のためのDIG3Dという新しい手法を提案する。
提案手法は,デコーダの3次元ガウスアンを生成するエンコーダ・デコーダ・フレームワークを用いて,エンコーダから奥行き認識画像の特徴を誘導する。
提案手法をShapeNet SRNデータセット上で評価し,車内および椅子内におけるPSNRは24.21と24.98であった。
論文 参考訳(メタデータ) (2024-04-25T04:18:59Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene
Completion [129.5975573092919]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。
2D画像のみから完全な3Dセマンティクスを出力できる。
我々のフレームワークは、幾何学の20.0%と意味論の18.1%を相対的に改善し、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2023-02-23T18:59:36Z) - Efficient 3D Object Reconstruction using Visual Transformers [4.670344336401625]
我々は3次元オブジェクト再構成における畳み込みの代わりに視覚変換器を使うことにした。
変換器ベースのエンコーダとデコーダを用いて2次元画像から3次元構造を予測し,ベースラインアプローチと同じような精度または優れた精度を実現する。
論文 参考訳(メタデータ) (2023-02-16T18:33:25Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - AFTer-UNet: Axial Fusion Transformer UNet for Medical Image Segmentation [19.53151547706724]
トランスをベースとしたモデルは、医療画像セグメンテーションにおけるこれらの手法の探求に注目されている。
本稿では、畳み込み層の長周期モデリングにおける詳細特徴抽出能力と変圧器強度の両面を活かしたAxial Fusion Transformer UNet(AFTer-UNet)を提案する。
パラメータが少なく、GPUメモリのトレーニングも従来のトランスフォーマーベースのモデルよりも少ない。
論文 参考訳(メタデータ) (2021-10-20T06:47:28Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。