Fugu-MT 論文翻訳(概要): 3D Shape Tokenization via Latent Flow Matching

論文の概要: 3D Shape Tokenization via Latent Flow Matching

arxiv url: http://arxiv.org/abs/2412.15618v3
Date: Mon, 24 Mar 2025 23:10:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 19:42:57.350829
Title: 3D Shape Tokenization via Latent Flow Matching
Title（参考訳）: ラテントフローマッチングによる3次元形状トークン化
Authors: Jen-Hao Rick Chang, Yuyang Wang, Miguel Angel Bautista Martin, Jiatao Gu, Xiaoming Zhao, Josh Susskind, Oncel Tuzel,
Abstract要約: 我々は3次元曲面を3次元の確率密度関数、すなわちp(x,y,z)をフローマッチングでモデル化する潜在3次元表現を導入する。私たちの表現は、特に機械学習モデルによる消費のために設計されており、ポイントクラウドと最小限のデータ前処理を必要としながら、構築による連続性とコンパクト性を提供します。
参考スコア（独自算出の注目度）: 38.28217561449967
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a latent 3D representation that models 3D surfaces as probability density functions in 3D, i.e., p(x,y,z), with flow-matching. Our representation is specifically designed for consumption by machine learning models, offering continuity and compactness by construction while requiring only point clouds and minimal data preprocessing. Despite being a data-driven method, our use of flow matching in the 3D space enables interesting geometry properties, including the capabilities to perform zero-shot estimation of surface normal and deformation field. We evaluate with several machine learning tasks, including 3D-CLIP, unconditional generative models, single-image conditioned generative model, and intersection-point estimation. Across all experiments, our models achieve competitive performance to existing baselines, while requiring less preprocessing and auxiliary information from training data.
Abstract（参考訳）: 我々は3次元曲面を3次元の確率密度関数、すなわちp(x,y,z)をフローマッチングでモデル化する潜在3次元表現を導入する。私たちの表現は、特に機械学習モデルによる消費のために設計されており、ポイントクラウドと最小限のデータ前処理を必要としながら、構築による連続性とコンパクト性を提供します。データ駆動型手法であるにもかかわらず、3次元空間でのフローマッチングは、表面正規および変形場をゼロショットで推定する機能を含む興味深い幾何学的性質を実現する。本研究では,3D-CLIP,非条件生成モデル,単一画像条件生成モデル,交差点点推定などの機械学習タスクについて評価する。全ての実験において、我々のモデルは既存のベースラインと競合する性能を達成し、トレーニングデータから事前処理や補助情報を少なくする。

関連論文リスト

Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration [2.814748676983944]
局所球面ユークリッド3次元等分散特性をSE(3)メッセージパッシングに基づく伝搬により埋め込んだグラフニューラルネットワークモデルを提案する。我々のモデルは、主に記述モジュール、同変グラフ層、類似性、最終的な回帰層から構成される。 3DMatchおよびKITTIデータセットで行った実験は、最先端のアプローチと比較して、我々のモデルの魅力的で堅牢な性能を示している。
論文参考訳（メタデータ） (2024-10-08T06:48:01Z)
Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。我々の定式化は、人間の容積の任意の点を問合せし、推定位置を3Dで取得することに集中している。
論文参考訳（メタデータ） (2024-07-10T10:44:18Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Explorable Mesh Deformation Subspaces from Unstructured Generative Models [53.23510438769862]
3次元形状の深い生成モデルは、しばしば潜在的な変動を探索するために使用できる連続的な潜伏空間を特徴付ける。本研究では,手軽に探索可能な2次元探索空間から事前学習された生成モデルのサブ空間へのマッピングを構築することで,与えられたランドマーク形状の集合間のバリエーションを探索する手法を提案する。
論文参考訳（メタデータ） (2023-10-11T18:53:57Z)
Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation [47.945556996219295]
本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
論文参考訳（メタデータ） (2023-06-29T17:17:57Z)
3D VR Sketch Guided 3D Shape Prototyping and Exploration [108.6809158245037]
本稿では,3次元VRスケッチを条件として行う3次元形状生成ネットワークを提案する。スケッチは初心者がアートトレーニングなしで作成していると仮定する。本手法は,オリジナルスケッチの構造に整合した複数の3次元形状を生成する。
論文参考訳（メタデータ） (2023-06-19T10:27:24Z)
3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文参考訳（メタデータ） (2022-11-30T01:55:52Z)
Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文参考訳（メタデータ） (2022-04-21T03:42:31Z)
ShapeFormer: Transformer-based Shape Completion via Sparse Representation [41.33457875133559]
本稿では,不完全でノイズの多い点雲に条件付きオブジェクト完了の分布を生成するネットワークであるShapeFormerを提案する。結果の分布をサンプリングして、入力に忠実な状態で、それぞれがもっともらしい形状の詳細を示す、可能性のある完了を生成する。
論文参考訳（メタデータ） (2022-01-25T13:58:30Z)
Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文参考訳（メタデータ） (2021-08-30T19:45:07Z)
Deformed Implicit Field: Modeling 3D Shapes with Learned Dense Correspondence [30.849927968528238]
本稿では,カテゴリの3次元形状をモデル化するための新しいDeformed Implicit Field表現を提案する。我々のニューラルネットワーク、DIF-Netは、カテゴリに属する3Dオブジェクトの形状潜在空間とこれらのフィールドを共同で学習する。実験により、DIF-Netは高忠実度3次元形状を生成するだけでなく、異なる形状の高品位密度対応を生成することが示された。
論文参考訳（メタデータ） (2020-11-27T10:45:26Z)
Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文参考訳（メタデータ） (2020-09-25T20:06:13Z)
Combining Implicit Function Learning and Parametric Models for 3D Human Reconstruction [123.62341095156611]
深層学習近似として表される暗黙の関数は、3次元曲面の再構成に強力である。このような機能は、コンピュータグラフィックスとコンピュータビジョンの両方に柔軟なモデルを構築するのに不可欠である。詳細に富んだ暗黙関数とパラメトリック表現を組み合わせた方法論を提案する。
論文参考訳（メタデータ） (2020-07-22T13:46:14Z)
PolyGen: An Autoregressive Generative Model of 3D Meshes [22.860421649320287]
本稿では,Transformerベースのアーキテクチャを用いてメッシュを直接モデル化するアプローチを提案する。我々のモデルは、オブジェクトクラス、ボクセル、イメージなど、様々な入力を条件にすることができる。このモデルでは、高品質で使い勝手の良いメッシュを生成でき、メッシュモデリングタスクのためのログライクなベンチマークを確立することができる。
論文参考訳（メタデータ） (2020-02-23T17:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。