論文の概要: Point Cloud Quantization through Multimodal Prompting for 3D Understanding
- arxiv url: http://arxiv.org/abs/2511.12079v2
- Date: Wed, 19 Nov 2025 07:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.094555
- Title: Point Cloud Quantization through Multimodal Prompting for 3D Understanding
- Title(参考訳): 3次元理解のためのマルチモーダルプロンプティングによるポイントクラウド量子化
- Authors: Hongxuan Li, Wencheng Zhu, Huiying Xu, Xinzhong Zhu, Pengfei Zhu,
- Abstract要約: 本稿では,ポイントクラウド解析のための簡易なマルチモーダルプロンプト駆動量子化フレームワークを提案する。
1) 事前訓練されたモデルからのテキスト埋め込みは、視覚的意味論を本質的にエンコードする。
我々は、量子化空間を維持しながら微分可能な離散化を実現するために、Gumbel-Softmax緩和を用いる。
- 参考スコア(独自算出の注目度): 20.397232104616574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector quantization has emerged as a powerful tool in large-scale multimodal models, unifying heterogeneous representations through discrete token encoding. However, its effectiveness hinges on robust codebook design. Current prototype-based approaches relying on trainable vectors or clustered centroids fall short in representativeness and interpretability, even as multimodal alignment demonstrates its promise in vision-language models. To address these limitations, we propose a simple multimodal prompting-driven quantization framework for point cloud analysis. Our methodology is built upon two core insights: 1) Text embeddings from pre-trained models inherently encode visual semantics through many-to-one contrastive alignment, naturally serving as robust prototype priors; and 2) Multimodal prompts enable adaptive refinement of these prototypes, effectively mitigating vision-language semantic gaps. The framework introduces a dual-constrained quantization space, enforced by compactness and separation regularization, which seamlessly integrates visual and prototype features, resulting in hybrid representations that jointly encode geometric and semantic information. Furthermore, we employ Gumbel-Softmax relaxation to achieve differentiable discretization while maintaining quantization sparsity. Extensive experiments on the ModelNet40 and ScanObjectNN datasets clearly demonstrate the superior effectiveness of the proposed method.
- Abstract(参考訳): ベクトル量子化は大規模マルチモーダルモデルにおいて強力なツールとして登場し、離散トークン符号化により異種表現を統一している。
しかし、その効果は堅牢なコードブック設計に依存している。
訓練可能なベクトルやクラスタ化されたセントロイドに依存する現在のプロトタイプベースのアプローチは、マルチモーダルアライメントが視覚言語モデルにおけるその可能性を証明しているにもかかわらず、代表性と解釈性に欠ける。
これらの制約に対処するために、ポイントクラウド分析のための単純なマルチモーダルプロンプト駆動量子化フレームワークを提案する。
私たちの方法論は2つの中核的な洞察に基づいて構築されています。
1)事前訓練されたモデルからのテキスト埋め込みは、本質的には、多対一のコントラストアライメントを通じて視覚的意味論をエンコードし、自然に堅牢なプロトタイプの先行として機能する。
2) マルチモーダルプロンプトはこれらのプロトタイプを適応的に改良し,視覚言語の意味的ギャップを効果的に緩和する。
このフレームワークは、コンパクト性と分離正規化によって強制される二重制約量子化空間を導入し、視覚的特徴とプロトタイプ的特徴をシームレスに統合し、幾何学的情報と意味的情報を結合的にエンコードするハイブリッド表現をもたらす。
さらに、量子化空間を維持しながら微分可能な離散化を実現するために、Gumbel-Softmax緩和を用いる。
ModelNet40とScanObjectNNデータセットの大規模な実験により,提案手法の有効性が明らかに示された。
関連論文リスト
- Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation [20.2075487635278]
Continuous tokenizer (CT)は、複数の理解モジュールと生成モジュールをブリッジすることで、強力なパフォーマンスを実現する。
離散トークン化器(DT)は、各画像をプリミティブに定量化することで概念的にエレガントなアイデアを提供する。
我々はCDD-VT(Continuous-Discrete Dualistic Visual Tokenizer)を提案する。
論文 参考訳(メタデータ) (2025-11-03T13:58:32Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer [90.72238747690972]
マルチモーダルな大規模言語モデルのためのシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。
単一の視覚エンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つのアダプタと、テキストから画像への生成のための離散トークンを提供する。
統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
論文 参考訳(メタデータ) (2025-09-19T17:58:00Z) - Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。
本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文 参考訳(メタデータ) (2025-06-24T22:43:36Z) - Show-o2: Improved Native Unified Multimodal Models [57.34173415412808]
Show-o2は、自動回帰モデリングとフローマッチングを利用するネイティブ統合マルチモーダルモデルである。
3次元因果変分オートエンコーダ空間上に構築され、空間的(時間的)融合の二重経路によって統一された視覚表現が構成される。
論文 参考訳(メタデータ) (2025-06-18T15:39:15Z) - Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification [59.68055837500357]
本稿では,3次元形状のきめ細かい分類のためのプロトタイプベースフレームワークProto-FG3Dを提案する。
Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリ表現学習を確立する。
Proto-FG3Dは、精度、透明な予測、そして視覚化によるアドホックな解釈可能性において最先端の手法を超越している。
論文 参考訳(メタデータ) (2025-05-23T09:31:02Z) - BBQRec: Behavior-Bind Quantization for Multi-Modal Sequential Recommendation [15.818669767036592]
本稿では,2列列の量子化とセマンティックス・アウェア・シーケンス・モデリングを備えたBBQRec(Behavior-Bind Multi-modal Quantization for Sequential Recommendation)を提案する。
BBQRecは、コントラストのあるコードブック学習を通じて、ノイズの多いモダリティ特有の特徴からモダリティに依存しない行動パターンを分離する。
我々は、量子化された意味関係を用いて自己注意スコアを動的に調整する離散化類似度再重み付け機構を設計する。
論文 参考訳(メタデータ) (2025-04-09T07:19:48Z) - Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment [16.733970553781887]
最近の知見は、よく訓練された単調エンコーダのセマンティックな類似性が高いことを示唆している。
凍結したユニモーダルエンコーダを用いて視覚と言語を協調する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。