論文の概要: Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.27606v1
- Date: Fri, 31 Oct 2025 16:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.165868
- Title: Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning
- Title(参考訳): 空間SSRL:自己監督型強化学習による空間理解の促進
- Authors: Yuhong Liu, Beichen Zhang, Yuhang Zang, Yuhang Cao, Long Xing, Xiaoyi Dong, Haodong Duan, Dahua Lin, Jiaqi Wang,
- Abstract要約: 本研究では,通常のRGBやRGB-D画像から直接検証可能な信号を導出する自己教師付きRLパラダイムである空間SSRLを紹介する。
我々のタスクの訓練は、一般的な視覚能力を維持しながら空間的推論を大幅に改善する。
以上の結果から,単純で本質的な監視がRLVRを大規模に実現し,LVLMの空間知能を高めるための実践的経路が示唆された。
- 参考スコア(独自算出の注目度): 93.19037653970622
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spatial understanding remains a weakness of Large Vision-Language Models (LVLMs). Existing supervised fine-tuning (SFT) and recent reinforcement learning with verifiable rewards (RLVR) pipelines depend on costly supervision, specialized tools, or constrained environments that limit scale. We introduce Spatial-SSRL, a self-supervised RL paradigm that derives verifiable signals directly from ordinary RGB or RGB-D images. Spatial-SSRL automatically formulates five pretext tasks that capture 2D and 3D spatial structure: shuffled patch reordering, flipped patch recognition, cropped patch inpainting, regional depth ordering, and relative 3D position prediction. These tasks provide ground-truth answers that are easy to verify and require no human or LVLM annotation. Training on our tasks substantially improves spatial reasoning while preserving general visual capabilities. On seven spatial understanding benchmarks in both image and video settings, Spatial-SSRL delivers average accuracy gains of 4.63% (3B) and 3.89% (7B) over the Qwen2.5-VL baselines. Our results show that simple, intrinsic supervision enables RLVR at scale and provides a practical route to stronger spatial intelligence in LVLMs.
- Abstract(参考訳): 空間的理解はLVLM(Large Vision-Language Models)の弱点である。
既存の教師付き微調整(SFT)と、検証可能な報酬(RLVR)パイプラインによる最近の強化学習は、コストのかかる監督、特殊なツール、スケールを制限する制約のある環境に依存している。
本研究では,通常のRGBやRGB-D画像から直接検証可能な信号を導出する自己教師付きRLパラダイムである空間SSRLを紹介する。
空間SSRLは、シャッフルパッチリオーダー、フリップパッチ認識、トリミングパッチインペイント、地域深度順序付け、相対的な3D位置予測という、2Dおよび3D空間構造をキャプチャする5つのプリテキストタスクを自動で定式化する。
これらのタスクは、人間やLVLMアノテーションを必要とせず、検証しやすく、根本からの回答を提供する。
我々のタスクの訓練は、一般的な視覚能力を維持しながら空間的推論を大幅に改善する。
画像とビデオの両方における7つの空間理解ベンチマークでは、SSRLはQwen2.5-VLベースラインよりも平均精度が4.63%(3B)と3.89%(7B)向上している。
以上の結果から,単純で本質的な監視がRLVRを大規模に実現し,LVLMの空間知能を高めるための実践的経路が示唆された。
関連論文リスト
- MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence [50.11889361459544]
人間は視覚に基づく4D空間時間知能で生まれる。
その重要性にもかかわらず、この機能は現在の大規模言語モデル(MLLM)にとって重要なボトルネックであり続けている。
論文 参考訳(メタデータ) (2026-02-28T07:23:36Z) - Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding [78.26501371437013]
超高解像度(UHR)リモートセンシング(RS)のためのマルチモーダル推論は通常、視覚的エビデンス取得によってボトルネックとなる。
標準的な強化学習は、ドメインの事前構造がなくても、これらの広大な視覚空間をナビゲートするのに苦労している。
本研究では,(1)スケーラブルで知識グラフで検証された地球科学のテキストQAで冷間開始して推論構造を挿入し,(2)SFT中に同じ硬いUHR画像テキストの例で事前ウォーミングを行い,その後のツールベースのRLを安定化・増幅する,段階的な知識注入レシピを提案する。
論文 参考訳(メタデータ) (2026-02-15T16:40:33Z) - SARL: Spatially-Aware Self-Supervised Representation Learning for Visuo-Tactile Perception [6.975054201075641]
接触に富んだロボット操作は、局所幾何学を符号化する表現を必要とする。
現代のビジュオ触覚センサーは、両方のモダリティを単一の融合画像でキャプチャする。
ほとんどの自己教師付き学習フレームワークは、機能マップをグローバルベクターに圧縮する。
論文 参考訳(メタデータ) (2025-12-01T17:26:40Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards [37.39035418889281]
構造的空間接地と多段階推論を統合するためにRLで訓練された3D対応MLLMであるSpatialThinkerを紹介する。
このモデルは,タスク関連オブジェクトと空間関係のシーングラフを構築し,密集した空間報酬による回答への推論を行うことにより,人間のような空間知覚をシミュレートする。
論文 参考訳(メタデータ) (2025-11-10T18:52:47Z) - Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries [23.825984868116716]
多段階空間推論のための合成迷路を利用したフレームワークであるAriadneを紹介する。
我々は、この制御可能な環境を利用して、難易度を意識したカリキュラムにおいて、Reinforcement Learning with Verified Rewards(RLVR)を用いて視覚言語モデル(VLM)を訓練する。
驚くべきことに、VLMはRLVR後のトレーニングにおいて、ベースモデルが0%となる問題セットに対して50%以上の精度を達成する。
論文 参考訳(メタデータ) (2025-11-01T21:19:41Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Offline RLAIF: Piloting VLM Feedback for RL via SFO [4.391505380846452]
VLM(Vision-Language Models)は、アクション条件のトレーニングデータがないため、制御タスクを解く能力に制限がある。
AIフィードバックからの強化学習における重要な課題は、VLM由来の信号を学習プロセスに統合する方法を決定することだ。
論文 参考訳(メタデータ) (2025-03-02T23:52:46Z) - SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。