Fugu-MT 論文翻訳(概要): 3D-QAE: Fully Quantum Auto-Encoding of 3D Point Clouds

論文の概要: 3D-QAE: Fully Quantum Auto-Encoding of 3D Point Clouds

arxiv url: http://arxiv.org/abs/2311.05604v1
Date: Thu, 9 Nov 2023 18:58:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 14:01:14.091971
Title: 3D-QAE: Fully Quantum Auto-Encoding of 3D Point Clouds
Title（参考訳）: 3D-QAE: 3Dポイントの完全量子オートエンコーディング
Authors: Lakshika Rathi and Edith Tretschk and Christian Theobalt and Rishabh Dabral and Vladislav Golyanik
Abstract要約: 既存の3D表現の学習方法は、古典的なハードウェアでトレーニングされ、テストされるディープニューラルネットワークである。本稿では3次元点雲のための最初の量子オートエンコーダを紹介する。
参考スコア（独自算出の注目度）: 71.39129855825402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing methods for learning 3D representations are deep neural networks trained and tested on classical hardware. Quantum machine learning architectures, despite their theoretically predicted advantages in terms of speed and the representational capacity, have so far not been considered for this problem nor for tasks involving 3D data in general. This paper thus introduces the first quantum auto-encoder for 3D point clouds. Our 3D-QAE approach is fully quantum, i.e. all its data processing components are designed for quantum hardware. It is trained on collections of 3D point clouds to produce their compressed representations. Along with finding a suitable architecture, the core challenges in designing such a fully quantum model include 3D data normalisation and parameter optimisation, and we propose solutions for both these tasks. Experiments on simulated gate-based quantum hardware demonstrate that our method outperforms simple classical baselines, paving the way for a new research direction in 3D computer vision. The source code is available at https://4dqv.mpi-inf.mpg.de/QAE3D/.
Abstract（参考訳）: 既存の3D表現学習方法は、古典的なハードウェアでトレーニングされ、テストされるディープニューラルネットワークである。量子機械学習アーキテクチャは、速度と表現能力の点で理論的に予測された利点にもかかわらず、この問題や3Dデータ全般に関わるタスクについては、これまで検討されていない。本稿では,3次元点群に対する最初の量子オートエンコーダを提案する。我々の3D-QAEアプローチは完全に量子的であり、すなわち、すべてのデータ処理コンポーネントは量子ハードウェア用に設計されている。圧縮表現を生成するために、3dポイント雲のコレクションで訓練される。このような完全な量子モデルを設計する上での課題は,適切なアーキテクチャを見つけることに加えて,3次元データの正規化やパラメータ最適化などが挙げられる。シミュレーションゲート型量子ハードウェアを用いた実験により,本手法は単純な古典的ベースラインよりも優れており,3次元コンピュータビジョンにおける新たな研究方向への道筋を拓いている。ソースコードはhttps://4dqv.mpi-inf.mpg.de/QAE3D/で入手できる。

関連論文リスト

LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
CT3D++: Improving 3D Object Detection with Keypoint-induced Channel-wise Transformer [42.68740105997167]
手作りの最小限の設計で3Dオブジェクト検出を行うフレームワークを2つ導入する。まず,本提案では,各提案において,生点ベースの埋め込み,標準トランスフォーマーエンコーダ,チャンネルワイドデコーダを順次実行するCT3Dを提案する。次に、幾何学的および意味論的融合に基づく埋め込みを組み込んだCT3D++と呼ばれる拡張ネットワークを提案し、より価値があり包括的な提案認識情報を取り出す。
論文参考訳（メタデータ） (2024-06-12T12:40:28Z)
OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文参考訳（メタデータ） (2024-06-04T07:42:33Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。 Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2023-03-05T15:11:53Z)
SNAKE: Shape-aware Neural 3D Keypoint Field [62.91169625183118]
形状復元には点雲から3Dキーポイントを検出することが重要である。形状再構成は3次元キーポイント検出に有効か? 本稿では,形状認識型ニューラル3Dキーポイントフィールドに短いSNAKEという,教師なしの新たなパラダイムを提案する。
論文参考訳（メタデータ） (2022-06-03T17:58:43Z)
PVNAS: 3D Neural Architecture Search with Point-Voxel Convolution [26.059213743430192]
効率の観点から3次元深層学習について検討する。ハードウェア効率の良い新しい3DプリミティブであるPoint-Voxel Convolution(PVConv)を提案する。
論文参考訳（メタデータ） (2022-04-25T17:13:55Z)
Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文参考訳（メタデータ） (2021-02-01T08:18:24Z)
Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文参考訳（メタデータ） (2020-08-26T12:24:23Z)
Implicit Functions in Feature Space for 3D Shape Reconstruction and Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。 IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文参考訳（メタデータ） (2020-03-03T11:14:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。