論文の概要: TORA: Topological Representation Alignment for 3D Shape Assembly
- arxiv url: http://arxiv.org/abs/2604.04050v1
- Date: Sun, 05 Apr 2026 10:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.894235
- Title: TORA: Topological Representation Alignment for 3D Shape Assembly
- Title(参考訳): TORA:3次元形状アライメントのためのトポロジカル表現アライメント
- Authors: Nahyuk Lee, Zhiang Chen, Marc Pollefeys, Sunghwan Hong,
- Abstract要約: 3次元形状集合のためのフローマッチング法は、部品を組み立てられた構成に向かって輸送する点方向の速度場を学習するが、どの部分間の相互作用が運動を駆動すべきかについて明確なガイダンスは得られない。
ToRAは,凍結した3Dエンコーダから,トレーニング中のフローマッチングバックボーンにリレーショナル構造を蒸留するトポロジファースト表現アライメントフレームワークである。
幾何学的、意味論的、オブジェクト間アセンブリにまたがる5つのベンチマークの実験は、最先端のパフォーマンスを示し、特に目に見えない現実世界や合成データセットへのゼロショット転送が顕著である。
- 参考スコア(独自算出の注目度): 48.12655111974345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-matching methods for 3D shape assembly learn point-wise velocity fields that transport parts toward assembled configurations, yet they receive no explicit guidance about which cross-part interactions should drive the motion. We introduce TORA, a topology-first representation alignment framework that distills relational structure from a frozen pretrained 3D encoder into the flow-matching backbone during training. We first realize this via simple instantiation, token-wise cosine matching, which injects the learned geometric descriptors from the teacher representation. We then extend to employ a Centered Kernel Alignment (CKA) loss to match the similarity structure between student and teacher representations for enhanced topological alignment. Through systematic probing of diverse 3D encoders, we show that geometry- and contact-centric teacher properties, not semantic classification ability, govern alignment effectiveness, and that alignment is most beneficial at later transformer layers where spatial structure naturally emerges. TORA introduces zero inference overhead while yielding two consistent benefits: faster convergence (up to 6.9$\times$) and improved accuracy in-distribution, along with greater robustness under domain shift. Experiments on five benchmarks spanning geometric, semantic, and inter-object assembly demonstrate state-of-the-art performance, with particularly pronounced gains in zero-shot transfer to unseen real-world and synthetic datasets. Project page: https://nahyuklee.github.io/tora.
- Abstract(参考訳): 3次元形状集合のためのフローマッチング法は、部品を組み立てられた構成に向かって輸送する点方向の速度場を学習するが、どの部分間の相互作用が運動を駆動すべきかについて明確なガイダンスは得られない。
ToRAは,凍結した3Dエンコーダから,トレーニング中のフローマッチングバックボーンにリレーショナル構造を蒸留するトポロジファースト表現アライメントフレームワークである。
まず、簡単なインスタンス化、トークン単位のコサインマッチングにより、教師表現から学習した幾何学的記述子を注入する。
次に,CKA(Centered Kernel Alignment)の損失を利用して,生徒と教師の表現の類似性構造を一致させ,トポロジカルアライメントの強化を図る。
多様な3次元エンコーダの体系的探索を通して, 意味分類能力ではなく, 幾何学的および接触中心の教師特性がアライメントの有効性を制御し, 空間構造が自然に出現する後のトランスフォーマー層においてアライメントが最も有用であることを示す。
TORAはゼロ推論オーバーヘッドを導入し、より高速な収束(最大6.9$\times$)と、ドメインシフト時の堅牢性の向上という2つの一貫した利点をもたらす。
幾何学的、意味論的、オブジェクト間アセンブリにまたがる5つのベンチマークの実験は、最先端のパフォーマンスを示し、特に目に見えない現実世界や合成データセットへのゼロショット転送が顕著である。
プロジェクトページ: https://nahyuklee.github.io/tora.com
関連論文リスト
- FAST3DIS: Feed-forward Anchored Scene Transformer for 3D Instance Segmentation [15.271467111162714]
FAST3DISは、ホット後のクラスタリングを効果的にバイパスするエンドツーエンドのアプローチである。
本稿では,基礎的な奥行きバックボーン上に構築された3Dアンコール型クエリベースのTransformerアーキテクチャを提案する。
複雑な屋内3次元データセットを用いた実験により,本手法が競合セグメンテーション精度を実現することを示す。
論文 参考訳(メタデータ) (2026-03-27T00:45:31Z) - ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting [1.1470070927586018]
ProFuseは3Dガウススプラッティングを用いたオープンな3Dシーン理解のための効率的な文脈認識フレームワークである(3DGS)
パイプラインは、直接登録設定内でのクロスビュー一貫性とマスク内凝集を強化する。
ProFuseは1シーンあたり約5分でセマンティックアタッチメントを完了しながら、強力なオープン語彙の3DGS理解を実現する。
論文 参考訳(メタデータ) (2026-01-08T09:20:46Z) - Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - Rep3D: Re-parameterize Large 3D Kernels with Low-Rank Receptive Modeling for Medical Imaging [15.142146104837005]
Rep3Dは、学習可能な空間ボリュームを大規模なカーネルトレーニングに組み込む3D畳み込みフレームワークである。
Rep3Dは、3D画像解析のための解釈可能でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-26T07:12:56Z) - 3D-PointZshotS: Geometry-Aware 3D Point Cloud Zero-Shot Semantic Segmentation Narrowing the Visual-Semantic Gap [10.744510913722817]
3D-PointZshotSは、幾何学的なゼロショットセグメンテーションフレームワークである。
我々はLGPをクロスアテンション機構を介してジェネレータに統合し、微粒な幾何学的詳細で意味的特徴を豊かにする。
我々は、共有空間における視覚的特徴と意味的特徴を再表現し、意味と視覚的ギャップを埋め、未知のクラスへの知識伝達を促進する。
論文 参考訳(メタデータ) (2025-04-16T19:17:12Z) - 3D Geometric Shape Assembly via Efficient Point Cloud Matching [59.241448711254485]
Proxy Match Transform (PMT) は、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層である。
PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。
我々は,Breaking Badの大規模3次元幾何形状集合ベンチマークデータセットを用いてPMTRの評価を行った。
論文 参考訳(メタデータ) (2024-07-15T08:50:02Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。