論文の概要: Point-MF: One-step Point Cloud Generation from a Single Image via Mean Flows
- arxiv url: http://arxiv.org/abs/2604.24586v1
- Date: Mon, 27 Apr 2026 15:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.113203
- Title: Point-MF: One-step Point Cloud Generation from a Single Image via Mean Flows
- Title(参考訳): ポイントMF: 平均フローによる単一画像からのワンステップポイントクラウド生成
- Authors: Yuta Baba, Keiji Yanai,
- Abstract要約: 単一画像の点雲再構成は、単一のRGB画像から隠蔽された部分を含む完全な3D形状を推測しなければならない。
低NFE単一像点雲再構成のための平均フローベースのフレームワークであるPoint-MFを提案する。
- 参考スコア(独自算出の注目度): 4.719615308536812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-image point cloud reconstruction must infer complete 3D geometry, including occluded parts, from a single RGB image. While diffusion-based reconstructors achieve high accuracy, they typically require many denoising iterations, resulting in slow and expensive inference. We propose Point-MF, a Mean-Flow-based framework for low-NFE single-image point cloud reconstruction that couples a Mean-Flow-compatible architecture with an auxiliary loss. Specifically, Point-MF operates directly in point-cloud space to learn the mean velocity field and enables one-step reconstruction with a single network function evaluation (1-NFE), without relying on VAE-based latent representations. To make Mean Flow effective under large interval jumps, Point-MF employs a Diffusion Transformer tailored to the Mean-Flow setting, conditioned on frozen DINOv3 image features via a lightweight token adapter and equipped with explicit interval/time conditioning. Moreover, we introduce Denoised Space Anchor, a set-distance auxiliary loss on the denoised-space estimate $x_θ$ induced by the predicted velocity field, to stabilize large-step generation and reduce outliers and density artifacts. On ShapeNet-R2N2 and Pix3D, Point-MF strikes a strong balance between reconstruction quality and inference speed compared to multi-step diffusion baselines and competitive feedforward models, while generating high-quality point clouds with millisecond-level latency.
- Abstract(参考訳): 単一画像の点雲再構成は、単一のRGB画像から、隠蔽された部分を含む完全な3D形状を推測しなければならない。
拡散に基づく再構成器は高い精度を達成するが、通常は多くの復調反復を必要とし、遅くて高価な推論をもたらす。
低NFE単一イメージポイントクラウド再構築のための平均フローベースのフレームワークであるPoint-MFを提案し、平均フロー互換アーキテクチャと補助的損失を結合する。
具体的には、ポイント-MFは、平均速度場を学習するために、ポイントクラウド空間で直接動作し、VAEベースの潜在表現に頼ることなく、単一のネットワーク機能評価(1-NFE)でワンステップ再構成を可能にする。
大間隔のジャンプで平均流を効果的にするため、Point-MFは平均流設定に合わせて拡散変換器を採用し、軽量なトークンアダプタを介して凍結したDINOv3画像特徴に条件付けし、明示的な間隔/時間条件付けを備える。
さらに,予測速度場により誘導されるデノメーション空間の推定値である$x_θ$の集合距離補助損失であるデノメーション空間アンカーを導入し,大段発生の安定化と降圧器や密度アーティファクトの低減を図る。
ShapeNet-R2N2とPix3Dでは、多段階拡散ベースラインと競合フィードフォワードモデルと比較して再構成品質と推論速度のバランスが強く、ミリ秒レベルのレイテンシで高品質な点雲を生成する。
関連論文リスト
- ZID-Net: Zero-Inference Diffusion Prior Decoupling Network for Single Image Dehazing [10.634107398163676]
単一画像のデハージングは、回復品質と計算効率のトレードオフによって制約されることが多い。
ZID-Netは、フィードフォワード推論から拡散監視を明示的に分離する新しいフレームワークである。
ZID-Netは、合成RESIDEデータセット上で40.75dBのPSNRを達成し、実世界のデータセットで1.13dBのゲインで既存のメソッドを上回ります。
論文 参考訳(メタデータ) (2026-04-26T13:44:25Z) - RAFT-MSF++: Temporal Geometry-Motion Feature Fusion for Self-Supervised Monocular Scene Flow [51.43025173196566]
単眼のシーンフロー推定は画像列から高密度な3次元動きを復元することを目的としている。
RAFT-MSF++は,時間的特徴を融合して深度とシーンフローを推定する自己教師型マルチフレームフレームワークである。
実験の結果、RAFT-MSF++はKITTI Scene Flowベンチマークで24.14%のSF-allを達成した。
論文 参考訳(メタデータ) (2026-04-21T11:32:49Z) - PUFM++: Point Cloud Upsampling via Enhanced Flow Matching [15.738247394527024]
PUFM++は、スパース、ノイズ、部分的な観測から点雲を再構築するための拡張されたフローマッチングフレームワークである。
本稿では,まず,スパース入力から高密度ターゲットへ直進する直進経路の流れを学習し,次にノイズ摂動サンプルを用いて改良し,終端境界分布をよりよく近似する2段階フローマッチング手法を提案する。
合成ベンチマークと実世界のスキャンの実験は、PUFM++がポイントクラウドのアップサンプリングにおいて、新しい最先端の技術を設定していることを示している。
論文 参考訳(メタデータ) (2025-12-24T06:30:42Z) - MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - FOF-X: Towards Real-time Detailed Human Reconstruction from a Single Image [64.96903230497755]
本稿では,1枚の画像から詳細な人物形状をリアルタイムに再現するFOF-Xを提案する。
FOFの中核は、3次元占有体を2次元ベクトル場に分解し、3次元領域内の位相的および空間的関係を維持することである。
FOFに基づく新しい再構成フレームワークFOF-Xを設計し,テクスチャや照明による性能劣化を回避する。
論文 参考訳(メタデータ) (2024-12-08T14:46:29Z) - A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud
Completion [69.32451612060214]
実スキャンされた3Dポイントクラウドはしばしば不完全であり、下流アプリケーションのために完全なポイントクラウドを復元することが重要である。
ほとんどの既存のポイントクラウド補完方法は、トレーニングにチャンファー距離(CD)損失を使用する。
本稿では,点雲完了のためのPDR(Point Diffusion-Refinement)パラダイムを提案する。
論文 参考訳(メタデータ) (2021-12-07T06:59:06Z) - Efficient Re-parameterization Residual Attention Network For
Nonhomogeneous Image Dehazing [4.723586858098229]
ERRA-Netは1200x1600のHD画質の画像を平均166.11 fpsで処理する。
我々は, ステップ毎に高周波特徴を抽出するために, カスケードMAブロックを用い, 多層アテンション融合テールは, モデルの浅部と深部を結合してクリーン画像の残像を得る。
論文 参考訳(メタデータ) (2021-09-12T10:03:44Z) - Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation
and Spatial Supervision [68.35777836993212]
我々はPseudo-LiDAR点雲ネットワークを提案し、時間的および空間的に高品質な点雲列を生成する。
点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2020-06-20T03:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。