論文の概要: SA-VLA: Spatially-Aware Flow-Matching for Vision-Language-Action Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.00743v1
- Date: Sat, 31 Jan 2026 14:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.36817
- Title: SA-VLA: Spatially-Aware Flow-Matching for Vision-Language-Action Reinforcement Learning
- Title(参考訳): SA-VLA:視覚・言語・行動強化学習のための空間認識フローマッチング
- Authors: Xu Pan, Zhenglin Wan, Xingrui Yu, Xianwei Zheng, Youkai Ke, Ming Sun, Rui Wang, Ziwei Wang, Ivor Tsang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作において強力な一般化を示す。
強化学習 微調整は、しばしば空間分布シフトの下で頑健さを低下させる。
空間認識型RL適応フレームワークである textbfSA-VLA を提案する。
- 参考スコア(独自算出の注目度): 23.07158546335255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models exhibit strong generalization in robotic manipulation, yet reinforcement learning (RL) fine-tuning often degrades robustness under spatial distribution shifts. For flow-matching VLA policies, this degradation is closely associated with the erosion of spatial inductive bias during RL adaptation, as sparse rewards and spatially agnostic exploration increasingly favor short-horizon visual cues. To address this issue, we propose \textbf{SA-VLA}, a spatially-aware RL adaptation framework that preserves spatial grounding during policy optimization by aligning representation learning, reward design, and exploration with task geometry. SA-VLA fuses implicit spatial representations with visual tokens, provides dense rewards that reflect geometric progress, and employs \textbf{SCAN}, a spatially-conditioned annealed exploration strategy tailored to flow-matching dynamics. Across challenging multi-object and cluttered manipulation benchmarks, SA-VLA enables stable RL fine-tuning and improves zero-shot spatial generalization, yielding more robust and transferable behaviors. Code and project page are available at https://xupan.top/Projects/savla.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作において強力な一般化を示すが、強化学習(RL)の微調整は、空間分布シフトの下で頑健さを低下させる。
フローマッチングVLAポリシーでは、この劣化はRL適応中の空間誘導バイアスの侵食と密接に関連している。
この問題に対処するために,表現学習,報酬設計,タスク幾何による探索を整合させることにより,政策最適化時の空間的接地を保護する空間的認識型RL適応フレームワークである \textbf{SA-VLA} を提案する。
SA-VLAは暗黙の空間表現を視覚的トークンと融合させ、幾何学的進歩を反映した密集した報酬を提供し、フローマッチング力学に合わせた空間条件で熱処理された探索戦略である \textbf{SCAN} を用いる。
SA-VLAは、難易度の高いマルチオブジェクトと乱雑な操作ベンチマーク全体にわたって、安定したRL微調整を可能にし、ゼロショット空間の一般化を改善し、より堅牢で移動可能な振る舞いをもたらす。
コードとプロジェクトページはhttps://xupan.top/Projects/savla.comで公開されている。
関連論文リスト
- RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Visual Spatial Tuning [98.96397681943255]
視覚空間調整(VST)は視覚言語モデル(VLM)を人間に似た視覚空間能力で培養する包括的フレームワークである。
特に,基礎的な空間知識を構築するための微調整を指導し,さらに空間推論能力を向上させるための強化学習を行う。
その結果、ビジョン・ランゲージ・アクションモデルが空間的チューニングのパラダイムによって大幅に拡張され、より物理的に接地されたAIへの道が開けることが判明した。
論文 参考訳(メタデータ) (2025-11-07T18:59:16Z) - Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning [93.19037653970622]
本研究では,通常のRGBやRGB-D画像から直接検証可能な信号を導出する自己教師付きRLパラダイムである空間SSRLを紹介する。
我々のタスクの訓練は、一般的な視覚能力を維持しながら空間的推論を大幅に改善する。
以上の結果から,単純で本質的な監視がRLVRを大規模に実現し,LVLMの空間知能を高めるための実践的経路が示唆された。
論文 参考訳(メタデータ) (2025-10-31T16:30:08Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - SA-GCS: Semantic-Aware Gaussian Curriculum Scheduling for UAV Vision-Language Navigation [9.948269990112365]
Unmanned Aerial Vehicle (UAV) Vision-Language Navigation (VLN) は、エージェントが複雑な環境で目標を正確にローカライズし、飛行経路を計画できるようにすることを目的としている。
VLM(Vision-Language Models)の最近の進歩は、このタスクに強力な意味理解をもたらした。
強化学習は、一般化をさらに改善するために、トレーニング後の有望な戦略として登場した。
論文 参考訳(メタデータ) (2025-08-01T07:35:48Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - Imagine Beyond! Distributionally Robust Auto-Encoding for State Space Coverage in Online Reinforcement Learning [15.884955846999246]
GCRL(Goal-Conditioned Reinforcement Learning)は、エージェントが自律的に多様な行動を取得することを可能にする。
エージェントが探索中に表現を学ぶオンライン環境では、潜伏空間はエージェントのポリシーによって進化する。
論文 参考訳(メタデータ) (2025-05-23T12:43:55Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。