論文の概要: GeoAlign: Beyond Semantics with State-Guided Spatial Alignment in VLA Models
- arxiv url: http://arxiv.org/abs/2606.03240v1
- Date: Tue, 02 Jun 2026 07:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.820446
- Title: GeoAlign: Beyond Semantics with State-Guided Spatial Alignment in VLA Models
- Title(参考訳): GeoAlign: VLAモデルにおける状態ガイド型空間アライメントによるセマンティックスを超えて
- Authors: Yizhi Chen, Zhanxiang Cao, Xinyi Peng, Yixiao Zheng, Xiaxi Si, Yiheng Li, Liyun Yan, Keqi Zhu, Xueyun Chen, Shengcheng Fu, Tianyue Zhan, Yufei Jia, Jinming Yao, Yan Xie, Kun Wang, Cewu Lu, Yue Gao,
- Abstract要約: VLA政策学習のための状態誘導型空間アライメントアーキテクチャであるGeoAlignを紹介する。
GeoAlignは、ロボットドメインのRGB-D監視を備えたRGBジオグラフィックブランチをポストトレーニングし、ポリシーロールアウトのためにRGB由来のGeometry-Enhanced Post-Trained機能を生成する。
GeoAlignは、LIBEROの99.0%、SimplerEnv-Fractalの3つのタスクで85.3%、幾何学的にクリティカルな8つの現実世界のALOHAタスクで78.8%を達成している。
- 参考スコア(独自算出の注目度): 40.52757787197674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Vision--Language--Action (VLA) models often optimize for semantic grounding, whereas executable manipulation requires geometry-aware spatial alignment and dynamic affordance selection. We introduce GeoAlign, a state-guided spatial alignment architecture for VLA policy learning. GeoAlign post-trains an RGB geometry branch with robot-domain RGB-D supervision, yielding RGB-derived Geometry-Enhanced Post-Trained (GEP) features for policy rollout. The robot's proprioceptive state queries the GEP feature grid, producing compact, phase-dependent geometry tokens for action prediction. GeoAlign achieves 99.0% on LIBERO, 85.3% across three SimplerEnv-Fractal tasks, and 78.8% on eight geometry-critical real-world ALOHA tasks, with ablations confirming the value of geometry post-training and proprioceptive-state-guided querying.
- Abstract(参考訳): 現在のビジョン--Language-Action(VLA)モデルは意味的接地のために最適化されることが多いが、実行可能操作には幾何学的空間アライメントと動的アプライアンス選択が必要である。
VLA政策学習のための状態誘導型空間アライメントアーキテクチャであるGeoAlignを紹介する。
GeoAlignは、ロボットドメインのRGB-D監視を備えたRGBジオグラフィックブランチをポストトレーニングし、ポリシーロールアウトのためにRGB由来のGeometry-Enhanced Post-Trained (GEP)機能を提供する。
ロボットの固有受容状態はGEP特徴格子をクエリし、アクション予測のためのコンパクトで位相依存の幾何トークンを生成する。
GeoAlign は LIBERO で 99.0%、SimplerEnv-Fractal で 85.3%、幾何学クリティカルな8つの ALOHA タスクで 78.8% を達成している。
関連論文リスト
- GeoAgentBench: A Dynamic Execution Benchmark for Tool-Augmented Agents in Spatial Analysis [16.604040127938955]
ツール拡張GISエージェントに適した動的かつインタラクティブな評価ベンチマークであるGeoAgentBench(GABench)を紹介する。
GABenchは117の原子GISツールを統合し、53の典型的な空間分析タスクを含む現実的なサンドボックスを提供する。
我々は,グローバルオーケストレーションをステップワイドなリアクティブ実行から切り離して,専門家の認知異常を模倣する新しいエージェントアーキテクチャであるPlan-and-Reactを開発した。
論文 参考訳(メタデータ) (2026-04-15T13:55:34Z) - Geo$^\textbf{2}$: Geometry-Guided Cross-view Geo-Localization and Image Synthesis [12.868037364314953]
クロスビュー地理空間学習は、クロスビュージオローカライゼーション(CVGL)とクロスビュー画像合成(CVIS)の2つの重要なタスクからなる。
論文 参考訳(メタデータ) (2026-03-26T18:36:09Z) - Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning [72.13218601075958]
textbfWanderBenchは,具体的シナリオにおける行動可能な位置情報推論のための,最初のオープンアクセスグローバルジオロケーションベンチマークである。
我々は,下線Action of UnderlineThoughを用いた下線Geolocationフレームワークである textbfGeoAoT (Action of Thought) を提案する。
19個の大規模マルチモーダルモデルによる実験により、GeoAoTは動的環境におけるより優れた微細な局所化とより強力な一般化を実現することが示された。
論文 参考訳(メタデータ) (2026-03-11T06:24:10Z) - Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning [52.075928878249066]
視覚誘導モデル(VLM)は、基本的な図形要素の認識が限られているため、幾何学的推論に苦しむことが多い。
ドメイン固有の言語表現と組み合わせたダイアグラムインスタンスからなるベンチマークであるGeoPerceiveを紹介する。
翻訳者強化学習フレームワークGeoDPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T07:28:04Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - GeoTransolver: Learning Physics on Irregular Domains Using Multi-scale Geometry Aware Physics Attention Transformer [0.6049775965809078]
我々は、標準的な注意をGALEに置き換えるCAEのための幾何対応物理注意変換器GeoTransolverを提案する。
GeoTransolverは、幾何学的、大域的、境界的条件パラメータを物理的状態空間に計画し、潜在計算をドメイン構造や運用状態に固定する。
我々はGeoTransolver on DrivAerML, Luminary ShiFT-SUV, Luminary ShiFT-Wingをベンチマークし, Domino, Transolver (SilberNeMo でリリースされた) および文芸レポート AB-UPT と比較し, フィールド変数に対するドラッグ/リフトR2および相対L1誤差の評価を行った。
論文 参考訳(メタデータ) (2025-12-23T14:40:08Z) - GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation [26.632472450402947]
VLA(Vision-Language-Action)モデルは、ロボット操作において強力な一般化を実現するが、主に反応性と2D中心のままである。
予測力学および幾何学的先行性を持つ連続作用ポリシーを付加する幾何学的VLAフレームワークであるGeoPredictを提案する。
RoboCasa Human-50、LIBERO、実世界の操作タスクの実験は、GeoPredictが強いVLAベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-18T17:51:42Z) - GLaD: Geometric Latent Distillation for Vision-Language-Action Models [106.53332923530245]
GLaDは、知識蒸留による事前学習中に3次元の幾何学的先行を組み込んだ幾何学的認識型視覚・言語・アクション(VLA)フレームワークである。
GLaDは4つのLIBEROタスクスイートの平均成功率は94.1%で、同じ事前トレーニングデータを使用するUniVLA(92.5%)を上回っている。
論文 参考訳(メタデータ) (2025-12-10T13:07:27Z) - Geo2Vec: Shape- and Distance-Aware Neural Representation of Geospatial Entities [13.206124101350847]
署名された距離場(SDF)にインスパイアされた新しい手法であるGeo2Vecを導入し、元の空間で直接動作する。
SDFを近似するように訓練されたニューラルネットワークは、すべてのジオエンタリティタイプに対してコンパクトで幾何学的、統一された表現を生成する。
実験結果から,Geo2Vecは形状と位置を表す既存の手法より一貫して優れており,トポロジカルおよび距離の関係を捉え,実世界のGeoAIアプリケーションにおいて高い効率を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-26T07:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。