論文の概要: PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.00412v1
- Date: Sat, 28 Feb 2026 02:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.177752
- Title: PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models
- Title(参考訳): PointAlign: 3次元視覚言語モデルのための特徴レベルアライメント正規化
- Authors: Yuanhao Su, Shaofeng Zhang, Xiaosong Jia, Qi Fan,
- Abstract要約: 既存の手法は、言語のトークンのみを監督に用いながら、次世代の予測損失にのみ依存する。
mnameは、微粒な3次元幾何学的意味情報を保持するために、中間点のクラウドトークンを明示的に監督する。
モデルNet40および逆データセットを用いた実験により,本手法は,分類タスクの平均値に対して,textbf2.08ppの改善を達成できることを示した。
- 参考スコア(独自算出の注目度): 23.263895549689863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of 3D Vision-Language Models (VLMs), crucial for applications in robotics, autonomous driving, and augmented reality, is severely constrained by the scarcity of paired 3D-text data. Existing methods rely solely on next-token prediction loss, using only language tokens for supervision. This results in inefficient utilization of limited 3D data and leads to a significant degradation and loss of valuable geometric information in intermediate representations. To address these limitations, we propose {\mname}, a novel feature-level alignment regularization method. {\mname} explicitly supervises intermediate point cloud tokens to preserve fine-grained 3D geometric-semantic information throughout the language modeling process. Specifically, we constrain the intermediate point cloud tokens within the LLM to align with visual input tokens via a consistency loss. By training only a lightweight alignment projector and LoRA adapters, {\mname} achieves explicit feature-level supervision with minimal computational overhead, effectively preventing geometric degradation. Extensive experiments on ModelNet40 and Objaverse datasets demonstrate that our method achieves \textbf{2.08} pp improvement on average for classification tasks, with a substantial \textbf{7.50} pp gain on the challenging open-vocabulary Objaverse classification task and \textbf{4.88} pp improvement on 3D object captioning evaluated by Qwen2-72B-Instruct, validating the effectiveness of {\mname}. Code is publicly available at \href{https://github.com/yharoldsu0627/PointAlign}{https://github.com/yharoldsu0627/PointAlign}.
- Abstract(参考訳): ロボット工学、自律運転、拡張現実の応用に不可欠な3Dビジョンランゲージモデル(VLM)の開発は、ペア化された3Dテキストデータの不足に強く制約されている。
既存の手法は、言語のトークンのみを監督に用いながら、次世代の予測損失にのみ依存する。
これにより、限られた3次元データの非効率利用が可能となり、中間表現における貴重な幾何学的情報の大幅な劣化と損失をもたらす。
これらの制約に対処するために,新しい特徴レベルのアライメント正規化法である {\mname} を提案する。
{\mname} は、言語モデリングプロセス全体を通して詳細な3次元幾何学的意味情報を保存するために、中間点のクラウドトークンを明示的に監督する。
具体的には、LCM内の中間点のクラウドトークンを、一貫性損失を介して視覚的な入力トークンと整合するように制約する。
軽量アライメントプロジェクタとLoRAアダプタのみをトレーニングすることにより、計算オーバーヘッドを最小限にした明示的な特徴レベルの監視を実現し、幾何学的劣化を効果的に防止する。
ModelNet40 と Objaverse データセットの大規模な実験により,本手法は分類タスクの平均で \textbf{2.08} pp の改善を達成し,挑戦的なオープン語彙の Objaverse 分類タスクでは \textbf{7.50} pp が,Qwen2-72B-Instruct で評価された 3D オブジェクトキャプティングでは \textbf{4.88} pp の改善が得られた。
コードは \href{https://github.com/yharoldsu0627/PointAlign}{https://github.com/yharoldsu0627/PointAlign} で公開されている。
関連論文リスト
- Unified Unsupervised and Sparsely-Supervised 3D Object Detection by Semantic Pseudo-Labeling and Prototype Learning [0.0]
3Dオブジェクト検出は、自律走行とロボット知覚に不可欠である。
アノテーション依存を減らすために、教師なしおよび疎監督のパラダイムが出現した。
本稿では、教師なしとスパースアップされた3Dオブジェクト検出のための統一的なトレーニングフレームワークであるSPLを提案する。
論文 参考訳(メタデータ) (2026-02-25T01:26:34Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception [17.654858416126093]
協調的知覚により、エージェントは中間的特徴を交換することで知覚能力を高めることができる。
既存の手法は通常、これらの中間機能を2D Bird's-eye-view (BEV)表現として整理する。
ポイントレベル最適化トークンを利用した新しい協調認識フレームワークであるCoPLOTを提案する。
論文 参考訳(メタデータ) (2025-08-27T07:27:42Z) - OccLE: Label-Efficient 3D Semantic Occupancy Prediction [68.60633561134571]
OccLEはラベル効率のよい3Dセマンティック動作予測である。
イメージとLiDARを入力として取り、限られたvoxelアノテーションでハイパフォーマンスを維持する。
実験の結果,OccLE は Voxel アノテーションの10% しか使用せず,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-05-27T01:41:28Z) - Self-Supervised and Generalizable Tokenization for CLIP-Based 3D Understanding [87.68271178167373]
凍結したCLIPバックボーンを用いたスケール不変表現学習のためのユニバーサル3Dトークン化器を提案する。
S4Tokenは、シーンスケールに関係なくセマンティックインフォームドトークンを生成するトークン化パイプラインである。
論文 参考訳(メタデータ) (2025-05-24T18:26:30Z) - Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - NeuraLoc: Visual Localization in Neural Implicit Map with Dual Complementary Features [50.212836834889146]
本稿では,補完的な特徴を持つニューラル暗黙マップに基づく,効率的で斬新な視覚的局所化手法を提案する。
具体的には、幾何学的制約を強制し、ストレージ要件を小さくするために、3Dキーポイント記述子フィールドを暗黙的に学習する。
記述子の意味的あいまいさにさらに対処するために、追加の意味的文脈的特徴体を導入する。
論文 参考訳(メタデータ) (2025-03-08T08:04:27Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - 3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation [20.7179907935644]
3D-AVSは3Dポイントクラウドのオートボキャブラリの手法で、ボキャブラリが未知であり、実行時に各入力に対して自動生成される。
3D-AVSはまずイメージまたはポイントクラウドデータからセマンティックエンティティを認識し、次に自動的に生成された語彙ですべてのポイントをセグメンテーションする。
本手法は、画像ベースと点ベースの両方の認識を取り入れ、難解な照明条件下で頑健さを向上する。
論文 参考訳(メタデータ) (2024-06-13T13:59:47Z) - EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual
Grounding [4.447173454116189]
3Dビジュアルグラウンドティングは、リッチなセマンティックキューを備えた自由形式の自然言語記述によって言及されているポイントクラウド内のオブジェクトを見つけることを目的としている。
文中のテキスト属性を明示的に分離するEDAを提案する。
さらに、オブジェクト名を含まないオブジェクトを位置決めする新しい視覚的接地タスクを導入し、モデルの高密度アライメント能力を徹底的に評価する。
論文 参考訳(メタデータ) (2022-09-29T17:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。