論文の概要: ObitoNet: Multimodal High-Resolution Point Cloud Reconstruction
- arxiv url: http://arxiv.org/abs/2412.18775v1
- Date: Wed, 25 Dec 2024 04:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:24.248892
- Title: ObitoNet: Multimodal High-Resolution Point Cloud Reconstruction
- Title(参考訳): ObitoNet:マルチモーダル高分解能クラウド再構築
- Authors: Apoorv Thapliyal, Vinay Lanka, Swathi Baskaran,
- Abstract要約: ObitoNetはマルチモーダル入力を統合するためにクロスアテンション機構を採用している。
学習したマルチモーダル機能は、高解像度のポイントクラウド再構成のためのトランスフォーマーベースのデコーダに入力される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: ObitoNet employs a Cross Attention mechanism to integrate multimodal inputs, where Vision Transformers (ViT) extract semantic features from images and a point cloud tokenizer processes geometric information using Farthest Point Sampling (FPS) and K Nearest Neighbors (KNN) for spatial structure capture. The learned multimodal features are fed into a transformer-based decoder for high-resolution point cloud reconstruction. This approach leverages the complementary strengths of both modalities rich image features and precise geometric details ensuring robust point cloud generation even in challenging conditions such as sparse or noisy data.
- Abstract(参考訳): ObitoNetはマルチモーダル入力を統合するためにクロスアテンション機構を採用しており、視覚変換器(ViT)が画像から意味的特徴を抽出し、ポイントクラウドトークン化器が空間構造キャプチャのためにFarthest Point Sampling(FPS)とK Nearest Neighbors(KNN)を使用して幾何学情報を処理している。
学習したマルチモーダル機能は、高解像度のポイントクラウド再構成のためのトランスフォーマーベースのデコーダに入力される。
このアプローチは、スパースデータやノイズデータのような困難な条件においても、高画質な画像特徴と、ロバストな点雲の生成を保証する正確な幾何学的詳細の両方の相補的な強度を利用する。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - SoftPool++: An Encoder-Decoder Network for Point Cloud Completion [93.54286830844134]
本稿では,ポイントクラウド完了作業のための新しい畳み込み演算子を提案する。
提案した演算子は、最大プールやボキセル化操作を一切必要としない。
提案手法は,低解像度・高解像度の形状仕上げにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T15:31:36Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - PU-Transformer: Point Cloud Upsampling Transformer [38.05362492645094]
我々は、疎入力データから高密度高忠実点雲を生成することを目的とした点群アップサンプリングタスクに焦点をあてる。
具体的には,特徴表現における変換器の強みを活性化するために,多頭部自己注意構造の新しい変種を開発する。
我々は,従来のCNN手法と比較し,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-24T03:25:35Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z) - Dense Multiscale Feature Fusion Pyramid Networks for Object Detection in
UAV-Captured Images [0.09065034043031667]
本研究では,よりリッチな特徴を可能な限り得ることを目的とした,高密度多スケール特徴融合ピラミッドネットワーク(dmffpn)と呼ばれる新しい手法を提案する。
具体的には、密度の高い接続は、異なる畳み込み層からの表現を完全に活用するように設計されている。
VisDrone-DETと呼ばれるドローンベースのデータセットの実験は、我々の方法の競争力を示唆している。
論文 参考訳(メタデータ) (2020-12-19T10:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。