Fugu-MT 論文翻訳(概要): 3D Shape Tokenization

論文の概要: 3D Shape Tokenization

arxiv url: http://arxiv.org/abs/2412.15618v2
Date: Tue, 24 Dec 2024 14:07:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 14:46:50.331904
Title: 3D Shape Tokenization
Title（参考訳）: 3次元形状トークン化
Authors: Jen-Hao Rick Chang, Yuyang Wang, Miguel Angel Bautista Martin, Jiatao Gu, Josh Susskind, Oncel Tuzel,
Abstract要約: 連続的でコンパクトで、機械学習モデルに組み込むのが容易な3D表現であるShape Tokensを紹介します。形状トークンは、3次元フローマッチングモデルにおける形状情報を表す条件ベクトルとして機能する。様々な機械学習モデルにShape Tokensをアタッチすることで、新しい形状を生成し、画像を3Dに変換し、テキストや画像と3D形状をアライメントし、可変、ユーザ指定、解像度で直接形状をレンダリングすることができる。
参考スコア（独自算出の注目度）: 38.408642959154925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Shape Tokens, a 3D representation that is continuous, compact, and easy to incorporate into machine learning models. Shape Tokens act as conditioning vectors that represent shape information in a 3D flow-matching model. The flow-matching model is trained to approximate probability density functions corresponding to delta functions concentrated on the surfaces of shapes in 3D. By attaching Shape Tokens to various machine learning models, we can generate new shapes, convert images to 3D, align 3D shapes with text and images, and render shapes directly at variable, user specified, resolution. Moreover, Shape Tokens enable a systematic analysis of geometric properties such as normal, density, and deformation field. Across all tasks and experiments, utilizing Shape Tokens demonstrate strong performance compared to existing baselines.
Abstract（参考訳）: 連続的でコンパクトで、機械学習モデルに組み込むのが容易な3D表現であるShape Tokensを紹介します。形状トークンは、3次元フローマッチングモデルにおける形状情報を表す条件ベクトルとして機能する。流れマッチングモデルは3次元の形状表面に集中するデルタ関数に対応する確率密度関数を近似するために訓練される。様々な機械学習モデルにShape Tokensをアタッチすることで、新しい形状を生成し、画像を3Dに変換し、テキストや画像と3D形状をアライメントし、可変、ユーザ指定、解像度で直接形状をレンダリングすることができる。さらに、形状トークンは、正規、密度、変形場といった幾何学的性質の体系的な解析を可能にする。すべてのタスクや実験において、シェープトークンの利用は、既存のベースラインと比較して強いパフォーマンスを示している。

関連論文リスト

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。 UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文参考訳（メタデータ） (2025-06-11T17:23:21Z)
Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration [2.814748676983944]
局所球面ユークリッド3次元等分散特性をSE(3)メッセージパッシングに基づく伝搬により埋め込んだグラフニューラルネットワークモデルを提案する。我々のモデルは、主に記述モジュール、同変グラフ層、類似性、最終的な回帰層から構成される。 3DMatchおよびKITTIデータセットで行った実験は、最先端のアプローチと比較して、我々のモデルの魅力的で堅牢な性能を示している。
論文参考訳（メタデータ） (2024-10-08T06:48:01Z)
Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。我々の定式化は、人間の容積の任意の点を問合せし、推定位置を3Dで取得することに集中している。
論文参考訳（メタデータ） (2024-07-10T10:44:18Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Explorable Mesh Deformation Subspaces from Unstructured Generative Models [53.23510438769862]
3次元形状の深い生成モデルは、しばしば潜在的な変動を探索するために使用できる連続的な潜伏空間を特徴付ける。本研究では,手軽に探索可能な2次元探索空間から事前学習された生成モデルのサブ空間へのマッピングを構築することで,与えられたランドマーク形状の集合間のバリエーションを探索する手法を提案する。
論文参考訳（メタデータ） (2023-10-11T18:53:57Z)
Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation [47.945556996219295]
本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
論文参考訳（メタデータ） (2023-06-29T17:17:57Z)
3D VR Sketch Guided 3D Shape Prototyping and Exploration [108.6809158245037]
本稿では,3次元VRスケッチを条件として行う3次元形状生成ネットワークを提案する。スケッチは初心者がアートトレーニングなしで作成していると仮定する。本手法は,オリジナルスケッチの構造に整合した複数の3次元形状を生成する。
論文参考訳（メタデータ） (2023-06-19T10:27:24Z)
3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文参考訳（メタデータ） (2022-11-30T01:55:52Z)
Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文参考訳（メタデータ） (2022-04-21T03:42:31Z)
ShapeFormer: Transformer-based Shape Completion via Sparse Representation [41.33457875133559]
本稿では,不完全でノイズの多い点雲に条件付きオブジェクト完了の分布を生成するネットワークであるShapeFormerを提案する。結果の分布をサンプリングして、入力に忠実な状態で、それぞれがもっともらしい形状の詳細を示す、可能性のある完了を生成する。
論文参考訳（メタデータ） (2022-01-25T13:58:30Z)
Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文参考訳（メタデータ） (2021-08-30T19:45:07Z)
Deformed Implicit Field: Modeling 3D Shapes with Learned Dense Correspondence [30.849927968528238]
本稿では,カテゴリの3次元形状をモデル化するための新しいDeformed Implicit Field表現を提案する。我々のニューラルネットワーク、DIF-Netは、カテゴリに属する3Dオブジェクトの形状潜在空間とこれらのフィールドを共同で学習する。実験により、DIF-Netは高忠実度3次元形状を生成するだけでなく、異なる形状の高品位密度対応を生成することが示された。
論文参考訳（メタデータ） (2020-11-27T10:45:26Z)
Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文参考訳（メタデータ） (2020-09-25T20:06:13Z)
Combining Implicit Function Learning and Parametric Models for 3D Human Reconstruction [123.62341095156611]
深層学習近似として表される暗黙の関数は、3次元曲面の再構成に強力である。このような機能は、コンピュータグラフィックスとコンピュータビジョンの両方に柔軟なモデルを構築するのに不可欠である。詳細に富んだ暗黙関数とパラメトリック表現を組み合わせた方法論を提案する。
論文参考訳（メタデータ） (2020-07-22T13:46:14Z)
PolyGen: An Autoregressive Generative Model of 3D Meshes [22.860421649320287]
本稿では,Transformerベースのアーキテクチャを用いてメッシュを直接モデル化するアプローチを提案する。我々のモデルは、オブジェクトクラス、ボクセル、イメージなど、様々な入力を条件にすることができる。このモデルでは、高品質で使い勝手の良いメッシュを生成でき、メッシュモデリングタスクのためのログライクなベンチマークを確立することができる。
論文参考訳（メタデータ） (2020-02-23T17:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。