論文の概要: NeuroVoxel-LM: Language-Aligned 3D Perception via Dynamic Voxelization and Meta-Embedding
- arxiv url: http://arxiv.org/abs/2507.20110v1
- Date: Sun, 27 Jul 2025 03:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.966716
- Title: NeuroVoxel-LM: Language-Aligned 3D Perception via Dynamic Voxelization and Meta-Embedding
- Title(参考訳): NeuroVoxel-LM:動的ヴォキセル化とメタ埋め込みによる言語対応型3次元知覚
- Authors: Shiyu Liu, Lianlei Shan,
- Abstract要約: 我々は,NeuroVoxel-LMを提案する。NeuroVoxel-LMは,Neural Radiance Fields(NeRF)と動的解像度のボキセル化と軽量メタ埋め込みを統合した新しいフレームワークである。
具体的には、幾何学的および構造的複雑さに基づいてボクセルを適応的に調整する動的分解能多スケールボクセル化(DR-MSV)技術を導入する。
また,注目度に基づく重み付けと残差融合による意味表現を強化する軽量メタ埋め込み(TAP-LME)機構を提案する。
- 参考スコア(独自算出の注目度): 8.131547418489534
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent breakthroughs in Visual Language Models (VLMs) and Multimodal Large Language Models (MLLMs) have significantly advanced 3D scene perception towards language-driven cognition. However, existing 3D language models struggle with sparse, large-scale point clouds due to slow feature extraction and limited representation accuracy. To address these challenges, we propose NeuroVoxel-LM, a novel framework that integrates Neural Radiance Fields (NeRF) with dynamic resolution voxelization and lightweight meta-embedding. Specifically, we introduce a Dynamic Resolution Multiscale Voxelization (DR-MSV) technique that adaptively adjusts voxel granularity based on geometric and structural complexity, reducing computational cost while preserving reconstruction fidelity. In addition, we propose the Token-level Adaptive Pooling for Lightweight Meta-Embedding (TAP-LME) mechanism, which enhances semantic representation through attention-based weighting and residual fusion. Experimental results demonstrate that DR-MSV significantly improves point cloud feature extraction efficiency and accuracy, while TAP-LME outperforms conventional max-pooling in capturing fine-grained semantics from NeRF weights.
- Abstract(参考訳): 近年のVLM(Visual Language Models)とMLLM(Multimodal Large Language Models)のブレークスルーは,言語駆動型認知への3Dシーンの認識を著しく進歩させた。
しかし,既存の3D言語モデルでは,特徴抽出の遅さや表現精度の制限により,スパースで大規模な点雲に悩まされている。
これらの課題に対処するために,NeuroVoxel-LMを提案する。NeuroVoxel-LMは,Neural Radiance Fields(NeRF)と動的解像度のボキセル化と軽量メタ埋め込みを統合した新しいフレームワークである。
具体的には,幾何的および構造的複雑さに基づいてボクセル粒度を適応的に調整する動的分解能多スケールボクセル化(DR-MSV)技術を導入する。
さらに,注目度に基づく重み付けと残差融合による意味表現を強化する軽量メタ埋め込み(TAP-LME)機構を提案する。
実験により,DR-MSVは点雲の特徴抽出効率と精度を著しく向上し,TAP-LMEはNeRF重みから微細なセマンティックスを捕捉する上で,従来の最大プーリングよりも優れていた。
関連論文リスト
- ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - Dynamic Spectral Backpropagation for Efficient Neural Network Training [0.0]
動的スペクトルバックプロパゲーション(DSBP)は、主固有ベクトルに勾配を投影することで、リソース制約下でのニューラルネットワークトレーニングを強化する。
堅牢性、少人数の学習、ハードウェア効率の課題に対処する5つの拡張が提案されている。
DSBP は CIFAR 10, Fashion MNIST, MedMNIST, Tiny ImageNet 上で Sharpness Aware Minimization (SAM), Low Rank Adaptation (LoRA), Model Agnostic Meta Learning (MAML) より優れている。
論文 参考訳(メタデータ) (2025-05-29T11:47:50Z) - TinyAlign: Boosting Lightweight Vision-Language Models by Mitigating Modal Alignment Bottlenecks [15.308801774590597]
ビジョンと言語モデルを調整するための一般的なアプローチは、小さなコネクタモジュールをトレーニングしながら、ビジョンエンコーダと言語モデルの両方を凍結させることである。
本研究では,このアライメントのボトルネックを相互情報のレンズを通して検討する。
本稿では、メモリバンクから関連するコンテキストを戦略的に取得し、マルチモーダル入力を豊かにし、アライメントを向上する、Retrieval-Augmented Generationにインスパイアされた新しいフレームワークTinyAlignを提案する。
論文 参考訳(メタデータ) (2025-05-19T09:11:54Z) - MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction [44.592566642185425]
MuDGはマルチモーダル拡散モデルとガウススプラッティング(GS)を統合した革新的なフレームワークである。
我々は,MDGが再現性および光現実性合成品質の両方において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-13T17:48:41Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Large Body Language Models [1.9797215742507548]
本稿では,LBLM(Large Body Language Models)とLBLM-AVA(LBLMアーキテクチャ)を紹介する。このアーキテクチャは,Transformer-XL大言語モデルと並列化拡散モデルを組み合わせて,マルチモーダル入力(テキスト,音声,ビデオ)からヒューマンライクなジェスチャーを生成する。
LBLM-AVAは、Frecheのジェスチャー距離(FGD)を30%削減し、Frecheの知覚距離(Inception Distance)を25%改善し、ライフライクで文脈的に適切なジェスチャーを生成する上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-21T21:48:24Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - MVSBoost: An Efficient Point Cloud-based 3D Reconstruction [4.282795945742752]
拡張現実や仮想現実、医用画像、映画特殊効果など、様々な応用において、効率的で正確な3D再構成が不可欠である。
従来のMulti-View Stereo (MVS) システムはこれらのアプリケーションには基本的だが、暗黙の3次元シーンモデリングは複雑なトポロジや連続面を扱う新しい可能性をもたらした。
論文 参考訳(メタデータ) (2024-06-19T13:02:17Z) - VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis [73.50359502037232]
VoxNeRFは、ニューラル室内再構成と新しいビュー合成の質と効率を高めるための新しいアプローチである。
本稿では,最も関連性の高い領域に計算資源を割り当てる効率的なボクセル誘導サンプリング手法を提案する。
私たちのアプローチは、ScanNetとScanNet++に関する広範な実験で検証されています。
論文 参考訳(メタデータ) (2023-11-09T11:32:49Z) - ResFields: Residual Neural Fields for Spatiotemporal Signals [61.44420761752655]
ResFieldsは、複雑な時間的信号を効果的に表現するために設計された新しいネットワークのクラスである。
本稿では,ResFieldの特性を包括的に解析し,トレーニング可能なパラメータの数を減らすための行列分解手法を提案する。
スパースRGBDカメラからダイナミックな3Dシーンをキャプチャする効果を示すことで,ResFieldsの実用性を実証する。
論文 参考訳(メタデータ) (2023-09-06T16:59:36Z) - Learning Controllable Adaptive Simulation for Multi-resolution Physics [86.8993558124143]
完全深層学習に基づくサロゲートモデルとして,LAMP(Learning Controllable Adaptive Simulation for Multi- resolution Physics)を導入した。
LAMPは、前方進化を学習するためのグラフニューラルネットワーク(GNN)と、空間的洗練と粗大化のポリシーを学ぶためのGNNベースのアクター批判で構成されている。
我々は,LAMPが最先端のディープラーニングサロゲートモデルより優れており,長期予測誤差を改善するために,適応的なトレードオフ計算が可能であることを実証した。
論文 参考訳(メタデータ) (2023-05-01T23:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。