論文の概要: A Strong View-Free Baseline Approach for Single-View Image Guided Point Cloud Completion
- arxiv url: http://arxiv.org/abs/2506.15747v1
- Date: Wed, 18 Jun 2025 04:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.759329
- Title: A Strong View-Free Baseline Approach for Single-View Image Guided Point Cloud Completion
- Title(参考訳): 単一視点画像誘導点クラウドコンプリートに対する高解像度ビューフリーベースラインアプローチ
- Authors: Fangzhou Lin, Zilin Dai, Rigved Sanku, Songlin Hou, Kazunori D Yamada, Haichong K. Zhang, Ziming Zhang,
- Abstract要約: 本稿では,アテンションベースのマルチブランチエンコーダデコーダネットワークに基づくSVIPCの強力なベースラインアプローチを提案する。
我々の階層的な自己融合機構は、クロスアテンション層とセルフアテンション層によって駆動され、複数のストリームにまたがる情報を効果的に統合する。
本研究では、ShapeNet-ViPCデータセットに関する実験およびアブレーション研究により、ビューフリーフレームワークが最先端SVIPC法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 11.617131779171933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The single-view image guided point cloud completion (SVIPC) task aims to reconstruct a complete point cloud from a partial input with the help of a single-view image. While previous works have demonstrated the effectiveness of this multimodal approach, the fundamental necessity of image guidance remains largely unexamined. To explore this, we propose a strong baseline approach for SVIPC based on an attention-based multi-branch encoder-decoder network that only takes partial point clouds as input, view-free. Our hierarchical self-fusion mechanism, driven by cross-attention and self-attention layers, effectively integrates information across multiple streams, enriching feature representations and strengthening the networks ability to capture geometric structures. Extensive experiments and ablation studies on the ShapeNet-ViPC dataset demonstrate that our view-free framework performs superiorly to state-of-the-art SVIPC methods. We hope our findings provide new insights into the development of multimodal learning in SVIPC. Our demo code will be available at https://github.com/Zhang-VISLab.
- Abstract(参考訳): 単一ビューイメージガイドポイントクラウド補完(SVIPC)タスクは、単一ビューイメージの助けを借りて、部分的な入力から完全なポイントクラウドを再構築することを目的としている。
これまでの研究は、このマルチモーダルアプローチの有効性を実証してきたが、画像誘導の基本的な必要性はほとんど検討されていない。
そこで本研究では,集中型マルチブランチ・エンコーダ・デコーダネットワークをベースとしたSVIPCの強力なベースラインアプローチを提案する。
我々の階層的自己融合機構は、クロスアテンション層とセルフアテンション層によって駆動され、複数のストリームにまたがる情報を効果的に統合し、特徴表現を強化し、幾何学的構造を捉えるネットワーク能力を強化する。
ShapeNet-ViPCデータセットの大規模な実験とアブレーション研究により、我々のビューフリーフレームワークは最先端のSVIPC手法よりも優れた性能を示した。
我々は,SVIPCにおけるマルチモーダル学習の新たな展開を期待する。
私たちのデモコードはhttps://github.com/Zhang-VISLabで公開されます。
関連論文リスト
- Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - CLIP-based Point Cloud Classification via Point Cloud to Image Translation [19.836264118079573]
Contrastive Vision-Language Pre-Training(CLIP)ベースのポイントクラウド分類モデル(PointCLIP)は、ポイントクラウド分類研究領域に新たな方向性を追加した。
本稿では,PPCITNet(Pretrained Point Cloud to Image Translation Network)を提案する。
論文 参考訳(メタデータ) (2024-08-07T04:50:05Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - DiffPoint: Single and Multi-view Point Cloud Reconstruction with ViT
Based Diffusion Model [10.253402444122084]
我々は,ポイントクラウド再構築の課題に対して,ViTと拡散モデルを組み合わせたDiffPointという巧妙で強力なアーキテクチャを提案する。
DiffPointを単視点と多視点の両方の再構成タスクで評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-17T10:18:40Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - Cross-modal Learning for Image-Guided Point Cloud Shape Completion [23.779985842891705]
局所化潜在空間における2つのモダリティからの情報をどのように組み合わせることができるかを示す。
また、補助画像が監視信号を提供するような、弱い教師付き設定についても検討する。
実験は、一様および多様の完成のための最先端の教師付き手法よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-09-20T08:37:05Z) - Multi-scale Network with Attentional Multi-resolution Fusion for Point
Cloud Semantic Segmentation [2.964101313270572]
ローカルおよびグローバルなマルチスケール情報を集約する総合的なポイントクラウドセマンティックセマンティックセマンティクスネットワークを提案する。
点の局所的な形状を効果的に学習するアングル相関点畳み込みモジュールを提案する。
第3に、2Dイメージビジョンタスクのパフォーマンスに優れたHRNetにインスパイアされた私たちは、ポイントクラウド用にカスタマイズされたHRNetを構築し、グローバルなマルチスケールコンテキストを学習します。
論文 参考訳(メタデータ) (2022-06-27T21:03:33Z) - Series Photo Selection via Multi-view Graph Learning [52.33318426088579]
連続写真選択(SPS)は画像美学の質評価の重要な分野である。
我々は,マルチビュー特徴間の関係を構築するために,グラフニューラルネットワークを利用する。
ほぼ同一の一連の写真の中から最適なものを選択するために、シアムズネットワークが提案されている。
論文 参考訳(メタデータ) (2022-03-18T04:23:25Z) - Vis2Mesh: Efficient Mesh Reconstruction from Unstructured Point Clouds
of Large Scenes with Learned Virtual View Visibility [17.929307870456416]
非構造点雲からのメッシュ再構築のための新しいフレームワークを提案する。
仮想ビューと従来のグラフカットベースのメッシュ生成において、学習した3Dポイントの可視性を活用します。
論文 参考訳(メタデータ) (2021-08-18T20:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。