論文の概要: TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity
- arxiv url: http://arxiv.org/abs/2603.01371v1
- Date: Mon, 02 Mar 2026 02:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.650775
- Title: TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity
- Title(参考訳): TIMI:空間的忠実度を考慮した学習自由な画像から3次元のマルチインスタンス生成
- Authors: Xiao Cai, Lianli Gao, Pengpeng Zeng, Ji Zhang, Heng Tao Shen, Jingkuan Song,
- Abstract要約: 本研究では,高空間忠実度を実現する画像から3次元のマルチインスタンス生成のためのトレーニングフリーフレームワークを提案する。
具体的には、まずインスタンス認識分離誘導(ISG)モジュールを導入し、インスタンスのアンタングル化を容易にする。
次に、空間適応型幾何安定化更新(SGU)モジュールを考案し、インスタンスの幾何学的特性の保存を促進する。
- 参考スコア(独自算出の注目度): 126.89088014048001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise spatial fidelity in Image-to-3D multi-instance generation is critical for downstream real-world applications. Recent work attempts to address this by fine-tuning pre-trained Image-to-3D (I23D) models on multi-instance datasets, which incurs substantial training overhead and struggles to guarantee spatial fidelity. In fact, we observe that pre-trained I23D models already possess meaningful spatial priors, which remain underutilized as evidenced by instance entanglement issues. Motivated by this, we propose TIMI, a novel Training-free framework for Image-to-3D Multi-Instance generation that achieves high spatial fidelity. Specifically, we first introduce an Instance-aware Separation Guidance (ISG) module, which facilitates instance disentanglement during the early denoising stage. Next, to stabilize the guidance introduced by ISG, we devise a Spatial-stabilized Geometry-adaptive Update (SGU) module that promotes the preservation of the geometric characteristics of instances while maintaining their relative relationships. Extensive experiments demonstrate that our method yields better performance in terms of both global layout and distinct local instances compared to existing multi-instance methods, without requiring additional training and with faster inference speed.
- Abstract(参考訳): 画像から3次元のマルチインスタンス生成における高精度空間忠実度は、下流の現実世界のアプリケーションには不可欠である。
最近の研究は、マルチインスタンスデータセット上で、トレーニング済みの画像-to-3D(I23D)モデルを微調整することで、この問題に対処しようとしている。
実際、事前学習したI23Dモデルは、既に有意義な空間的先行性を有しており、事例絡みの問題によって証明されていない。
そこで本研究では,高空間忠実度を実現する画像から3次元のマルチインスタンス生成のための新しいトレーニングフリーフレームワークTIMIを提案する。
具体的には、まずインスタンス対応分離誘導(ISG)モジュールを導入する。
次に、ISGが導入したガイダンスを安定化させるために、相対関係を維持しつつ、インスタンスの幾何学的特徴の保存を促進する空間安定化幾何適応更新(SGU)モジュールを考案した。
大規模な実験により,既存のマルチインスタンス手法と比較して,グローバルなレイアウトと異なるローカルインスタンスの両方において,追加のトレーニングを必要とせず,より高速な推論速度で優れた性能が得られることが示された。
関連論文リスト
- RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - GACO-CAD: Geometry-Augmented and Conciseness-Optimized CAD Model Generation from Single Image [11.612167656421079]
マルチモーダル大言語モデル(MLLM)は2次元画像から3次元幾何学を正確に推定するのに依然として苦労している。
本稿では,新しい2段階後学習フレームワークGACO-CADを紹介する。
DeepCADとFusion360データセットの実験は、GACO-CADが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2025-10-20T04:57:20Z) - SPFSplatV2: Efficient Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views [18.814209805277503]
スパース多視点画像から3次元ガウススプラッティングを行うための効率的なフィードフォワードフレームワークであるSPFSplatV2について述べる。
ドメイン内およびドメイン外の新規ビュー合成において、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-21T21:37:56Z) - TrackAny3D: Transferring Pretrained 3D Models for Category-unified 3D Point Cloud Tracking [25.788917457593673]
TrackAny3Dは、カテゴリーに依存しない3D SOTのために、大規模な事前訓練された3Dモデルを転送する最初のフレームワークである。
MoGEアーキテクチャは、異なる幾何学的特徴に基づいて、特殊3ワークスを適応的に活性化する。
実験の結果,TrackAny3Dはカテゴリに依存しない3D SOT上での最先端性能を確立した。
論文 参考訳(メタデータ) (2025-07-26T10:41:55Z) - Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文 参考訳(メタデータ) (2025-06-11T17:23:21Z) - LTM3D: Bridging Token Spaces for Conditional 3D Generation with Auto-Regressive Diffusion Framework [40.17218893870908]
LTM3Dは条件付き3次元形状生成のための潜在トークン空間モデリングフレームワークである。
拡散と自己回帰(Auto-Regressive、AR)モデルの強みを統合する。
LTM3Dはマルチモーダル・マルチ表現3D生成のための一般化可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-30T06:08:45Z) - On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation [52.96632954620623]
本稿では3Dポイント・クラウド・トランス用に設計された新しい幾何対応PEFTモジュールを提案する。
当社のアプローチでは,大規模3Dポイントクラウドモデルの効率的,スケーラブル,かつ幾何を考慮した微調整のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2025-05-28T15:08:36Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - GLASS: Geometric Latent Augmentation for Shape Spaces [28.533018136138825]
幾何学的に動機づけられたエネルギーを用いて拡張し、その結果、サンプル(トレーニング)モデルのスパースコレクションを増強する。
本研究では,高剛性(ARAP)エネルギーのヘシアン解析を行い,その基礎となる(局所)形状空間に投射する。
我々は,3~10個のトレーニング形状から始めても,興味深い,意味のある形状変化の例をいくつか提示する。
論文 参考訳(メタデータ) (2021-08-06T17:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。