論文の概要: BrepLLM: Native Boundary Representation Understanding with Large Language Models
- arxiv url: http://arxiv.org/abs/2512.16413v1
- Date: Thu, 18 Dec 2025 11:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.025278
- Title: BrepLLM: Native Boundary Representation Understanding with Large Language Models
- Title(参考訳): BrepLLM: 大規模言語モデルによるネイティブ境界表現理解
- Authors: Liyuan Deng, Hao Guo, Yunpeng Bai, Yongkang Dai, Huaxi Huang, Yilei Shi,
- Abstract要約: 現在のトークンシーケンスベースのLarge Language Model(LLM)は、3D境界表現(Brep)モデルの処理には適していない。
本稿では,LLMが生のBrepデータを解析し解析することを可能にする最初のフレームワークであるBrepLLMを提案する。
実験の結果,BrepLLMは3次元オブジェクト分類とキャプションタスクにおいて,最先端のSOTA(State-of-the-art)を達成できた。
- 参考スコア(独自算出の注目度): 15.988259787552629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current token-sequence-based Large Language Models (LLMs) are not well-suited for directly processing 3D Boundary Representation (Brep) models that contain complex geometric and topological information. We propose BrepLLM, the first framework that enables LLMs to parse and reason over raw Brep data, bridging the modality gap between structured 3D geometry and natural language. BrepLLM employs a two-stage training pipeline: Cross-modal Alignment Pre-training and Multi-stage LLM Fine-tuning. In the first stage, an adaptive UV sampling strategy converts Breps into graphs representation with geometric and topological information. We then design a hierarchical BrepEncoder to extract features from geometry (i.e., faces and edges) and topology, producing both a single global token and a sequence of node tokens. Then we align the global token with text embeddings from a frozen CLIP text encoder (ViT-L/14) via contrastive learning. In the second stage, we integrate the pretrained BrepEncoder into an LLM. We then align its sequence of node tokens using a three-stage progressive training strategy: (1) training an MLP-based semantic mapping from Brep representation to 2D with 2D-LLM priors. (2) performing fine-tuning of the LLM. (3) designing a Mixture-of-Query Experts (MQE) to enhance geometric diversity modeling. We also construct Brep2Text, a dataset comprising 269,444 Brep-text question-answer pairs. Experiments show that BrepLLM achieves state-of-the-art (SOTA) results on 3D object classification and captioning tasks.
- Abstract(参考訳): 現在のトークン列に基づく大規模言語モデル(LLM)は、複雑な幾何学的および位相的情報を含む3次元境界表現(Brep)モデルを直接処理するのに適していない。
本稿では,LLMが生のBrepデータを解析し,解釈し,構造化された3次元幾何学と自然言語とのモダリティギャップを埋めることのできる,最初のフレームワークであるBrepLLMを提案する。
BrepLLMはクロスモーダルアライメント・プレトレーニングと多段LPMファインチューニングという2段階の訓練パイプラインを採用している。
第一段階では、適応的な紫外線サンプリング戦略により、ブレップは幾何学的および位相的情報を持つグラフ表現に変換される。
次に階層型BrepEncoderを設計し、幾何学(顔と縁)とトポロジーから特徴を抽出し、単一のグローバルトークンとノードトークンのシーケンスを生成する。
次に,グローバルトークンと冷凍CLIPテキストエンコーダ(ViT-L/14)のテキスト埋め込みを対比学習により整合させる。
第2段階では,事前学習したBrepEncoderをLCMに統合する。
次に、3段階のプログレッシブトレーニング戦略を用いてノードトークンのシーケンスを整列する。(1)Brep表現から2D-LLM前の2DへのMLPベースのセマンティックマッピングをトレーニングする。
2)LDMの微調整を行う。
(3) 幾何多様性モデリングを強化するためにMixture-of-Query Experts (MQE) を設計する。
また,269,444個のBrep-text質問応答ペアからなるデータセットであるBrep2Textを構築した。
実験の結果,BrepLLMは3次元オブジェクト分類とキャプションタスクにおいて,最先端のSOTA(State-of-the-art)を達成できた。
関連論文リスト
- BrepGPT: Autoregressive B-rep Generation with Voronoi Half-Patch [61.20046418942948]
境界表現(B-rep)はCADモデル表現のデファクトスタンダードである。
本稿では,B-rep生成のためのシングルステージ自動回帰フレームワークBrepGPTを提案する。
論文 参考訳(メタデータ) (2025-11-27T07:16:53Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh [79.20802127426003]
MeshLLMは、大規模言語モデル(LLM)を活用して、テキストシリアライズされた3Dメッシュを理解して生成するフレームワークである。
我々は3次元メッシュを構造的に意味のあるサブユニットに分割するプリミティブ・メシュ分解戦略を導入する。
実験により、MeshLLMはメッシュ生成の品質と形状理解の両方において最先端のLLaMA-Meshよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-02T07:37:37Z) - PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。
我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。
第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-30T08:13:07Z) - LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。
主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。
我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文 参考訳(メタデータ) (2024-11-14T17:08:23Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。