論文の概要: GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.09079v1
- Date: Tue, 10 Mar 2026 01:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.932447
- Title: GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models
- Title(参考訳): GST-VLA:3次元奥行き認識言語行動モデルのための構造付きガウス空間トークン
- Authors: Md Selim Sarowar, Omer Tariq, Sungho Kim,
- Abstract要約: VLAモデルは、内在的な幾何学構造を持たない2次元パッチトークンとして視覚観察を符号化する。
GST-VLAを2つのコントリビューションで紹介する。
第一に、ガウス空間Tokenizer (GST) は凍った深度と凍ったセマンティックパッチの特徴を3Dプリミティブに変換する。
第二に、DA-CoT推論は4つの構造化された中間空間的思考を監督する。
- 参考スコア(独自算出の注目度): 6.2676602262188625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VLA models encode visual observations as 2D patch tokens with no intrinsic geometric structure. We introduce GST-VLA with two contributions. First, the Gaussian Spatial Tokenizer (GST) converts frozen dense depth and frozen semantic patch features into $N_g{=}128$ anisotropic 3D Gaussian primitives, each parameterized by a metric residual mean $μ\in \mathbb{R}^3$, log-scale covariance $\log σ\in \mathbb{R}^3$, and learned opacity $α\in (0,1)$. The covariance eigenstructure encodes local surface orientation, and opacity provides per-primitive geometric confidence, both inaccessible from scalar depth. Spatial attention pooling with learned queries concentrates the fixed token budget on geometrically salient regions rather than distributing uniformly. Second, 3D Depth-Aware Chain-of-Thought (DA-CoT) reasoning supervises four structured intermediate spatial thoughts, covering 3D object grounding, grasp affordance contact geometry, pairwise metric distances, and coarse SE(3) waypoints, as explicit generation targets in the training loss. A cross-attention sublayer at every VLM transformer block provides direct access to the raw 256-primitive Gaussian field during DA-CoT generation. A 300M-parameter flow-matching action expert with mixture-of-experts feedforward sublayers decodes 7-DoF delta action chunks via conditional ODE integration, conditioned on both VLM hidden states and DA-CoT outputs through dual cross-attention. Trained with composite $\mathcal{L}_\mathrm{flow} + \mathcal{L}_\mathrm{CoT} + \mathcal{L}_\mathrm{depth}$ across three progressive stages, GST-VLA achieves 96.4% on LIBERO (+2.0%), and 80.2% on SimplerEnv (+5.4%). Ablations isolate the contribution of each GST component, each DA-CoT thought, and each training stage, confirming independent and synergistic gains concentrated on precision demanding tasks.
- Abstract(参考訳): VLAモデルは、内在的な幾何学構造を持たない2次元パッチトークンとして視覚観察を符号化する。
GST-VLAを2つのコントリビューションで紹介する。
第一に、ガウス空間Tokenizer (GST) は凍結深度と凍結セマンティックパッチの特徴を$N_g{=}128$異方性3Dガウスプリミティブに変換し、それぞれのパラメータを計量的残差平均$μ\in \mathbb{R}^3$、ログスケール共分散$\log σ\in \mathbb{R}^3$、学習透明度$α\in (0,1)$でパラメータ化する。
共分散固有構造は局所的な表面配向を符号化し、不透明度は原単位の幾何的信頼を与え、どちらもスカラー深さから到達できない。
学習クエリによる空間的注意プールは、均一に分布するのではなく、幾何学的に健全な領域に固定トークン予算を集中させる。
第2に、DA-CoT推論(DA-CoT)は、トレーニング損失の明確な生成ターゲットとして、3次元物体接地、可視接触幾何、対距離距離、および粗いSE(3)経路点を含む4つの構造化された中間空間的思考を監督する。
各VLMトランスブロックにおけるクロスアテンションサブレイヤは、DA-CoT生成中に生の256原始ガウス場に直接アクセスする。
実験用フィードフォワード層を混合した300Mパラメータフローマッチングアクションエキスパートは、条件付きODE積分により7-DoFデルタアクションチャンクをデコードする。
複合 $\mathcal{L}_\mathrm{flow} + \mathcal{L}_\mathrm{CoT} + \mathcal{L}_\mathrm{depth}$3段階にわたる訓練により、GST-VLAはLIBERO(+2.0%)で96.4%、SimplerEnv(+5.4%)で80.2%を達成する。
アブレーションは各GST成分、各DA-CoT思考、および各訓練段階の寄与を分離し、独立性および相乗的ゲインが精度の高い要求タスクに集中していることを確認する。
関連論文リスト
- 3DGS$^2$-TR: Scalable Second-Order Trust-Region Method for 3D Gaussian Splatting [25.277141070184083]
3次元ガウススティングにおけるトレーニング問題を高速化する2次計算法である3DGS$2$-TRを提案する(3DGS)。
本手法はハッチンソン法を用いて, ヘッセン行列の対角線のみを用いて曲率を近似する。
3DGS$2$-TRは、ADAMよりも50%少ないトレーニングイテレーション、3DGS-LMより85%少ないトレーニングイテレーションを使用して、標準データセットの再構築品質を向上させることができる。
論文 参考訳(メタデータ) (2026-01-30T23:14:09Z) - Robust inverse material design with physical guarantees using the Voigt-Reuss Net [0.0]
本稿では, ハード物理保証を伴う前方および逆機械的均質化のためのスペクトル正規化サロゲートを提案する。
バイファシック・マイクロ構造のオープンデータセット上の3次元線形弾性では、完全に接続されたVoigt-Reussネットは、236のイソトロピーインディスクリプタを持つFFTベースのラベルでトレーニングされている。
全体として、Voigt-Reussネットは、大バッチで制約に一貫性のある逆設計で正確で物理的に許容できる前方予測を統一する。
論文 参考訳(メタデータ) (2025-11-14T15:17:37Z) - Arithmetic-Mean $μ$P for Modern Architectures: A Unified Learning-Rate Scale for CNNs and ResNets [9.94514344279733]
Arithmetic-Mean $mu$P は個々の層ではなく、ネットワーク全体の平均1ステップのプレアクティベーション第2モーメントを一定スケールに制限する。
1次元および2次元の畳み込みネットワークの場合、最大更新学習率は$etastar(L)propto L-3/2$; を満足する。
論文 参考訳(メタデータ) (2025-10-05T19:22:50Z) - GaussianUDF: Inferring Unsigned Distance Functions through 3D Gaussian Splatting [49.60513072330759]
本稿では,3次元ガウスとUDFのギャップを埋める新しい手法を提案する。
私たちのキーとなるアイデアは、表面上の細く平坦な2次元ガウス平面を過度に適合させ、それから自己超越と勾配に基づく推論を活用することである。
我々は, 境界を持つ開放面の精度, 効率, 完全性, シャープ性の観点から, 優位性を示す。
論文 参考訳(メタデータ) (2025-03-25T08:46:55Z) - Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)において顕著な効果を示した
本稿では,Self-Ensembling Gaussian Splatting(SE-GS)を紹介する。
我々は,トレーニング中に不確実性を認識した摂動戦略を導入することで,自己理解を実現する。
LLFF, Mip-NeRF360, DTU, MVImgNetデータセットによる実験結果から, 本手法がNVSの品質を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - 3DGSR: Implicit Surface Reconstruction with 3D Gaussian Splatting [58.95801720309658]
本稿では,3次元ガウス散乱(3DGS),すなわち3DGSRを用いた暗黙的表面再構成法を提案する。
重要な洞察は、暗黙の符号付き距離場(SDF)を3Dガウスに組み込んで、それらが整列され、共同最適化されるようにすることである。
実験により, 3DGSの効率とレンダリング品質を保ちながら, 高品質な3D表面再構成が可能な3DGSR法が実証された。
論文 参考訳(メタデータ) (2024-03-30T16:35:38Z) - Volumetric Attribute Compression for 3D Point Clouds using Feedforward
Network with Geometric Attention [36.41214415449853]
固有分解のない関数空間にまたがる高階B-スプラインベースを実装したフィードフォワード線形ネットワークを提案する。
エンコーダにおける正規化におけるレイヤーの数は、逆テイラー級数における項の数に等しいことを示す。
論文 参考訳(メタデータ) (2023-04-01T15:24:12Z) - Training \beta-VAE by Aggregating a Learned Gaussian Posterior with a
Decoupled Decoder [0.553073476964056]
VAEトレーニングの現在の実践は、しばしば、再構成の忠実さと、潜伏空間の連続性$/$$分散の間のトレードオフをもたらす。
本稿では,2つの損失の対角的機構の直観と注意深い解析を行い,VAEを訓練するための簡易で効果的な2段階法を提案する。
本手法は, 3次元頭蓋骨再建と形状完成を目的とした医療データセットを用いて評価し, 提案手法を用いてトレーニングしたVAEの有望な生成能力を示す。
論文 参考訳(メタデータ) (2022-09-29T13:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。