論文の概要: SmolRGPT: Efficient Spatial Reasoning for Warehouse Environments with 600M Parameters
- arxiv url: http://arxiv.org/abs/2509.15490v1
- Date: Thu, 18 Sep 2025 23:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.939651
- Title: SmolRGPT: Efficient Spatial Reasoning for Warehouse Environments with 600M Parameters
- Title(参考訳): SmolRGPT:600Mパラメータを持つ暖房環境に対する効率的な空間推論
- Authors: Abdarahmane Traore, Éric Hervet, Andy Couturier,
- Abstract要約: 本稿では,領域レベルの空間的推論を明示的に組み込んだ,コンパクトな視覚言語アーキテクチャであるSmolRGPTを提案する。
SmolRGPTは3段階のカリキュラムを採用しており、視覚的特徴と言語的特徴を段階的に整列させ、空間的関係理解を可能にし、タスク固有のデータセットに適応する。
SmolRGPTは6億のパラメータしか持たず、倉庫の空間推論ベンチマークに挑戦し、より大きな代替品の性能にマッチまたは超える結果が得られることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have enabled powerful multimodal reasoning, but state-of-the-art approaches typically rely on extremely large models with prohibitive computational and memory requirements. This makes their deployment challenging in resource-constrained environments such as warehouses, robotics, and industrial applications, where both efficiency and robust spatial understanding are critical. In this work, we present SmolRGPT, a compact vision-language architecture that explicitly incorporates region-level spatial reasoning by integrating both RGB and depth cues. SmolRGPT employs a three-stage curriculum that progressively align visual and language features, enables spatial relationship understanding, and adapts to task-specific datasets. We demonstrate that with only 600M parameters, SmolRGPT achieves competitive results on challenging warehouse spatial reasoning benchmarks, matching or exceeding the performance of much larger alternatives. These findings highlight the potential for efficient, deployable multimodal intelligence in real-world settings without sacrificing core spatial reasoning capabilities. The code of the experimentation will be available at: https://github.com/abtraore/SmolRGPT
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩により、強力なマルチモーダル推論が可能になったが、最先端のアプローチは通常、計算とメモリの要求を禁止した非常に大きなモデルに依存している。
これにより、倉庫、ロボット工学、産業アプリケーションといった資源に制約のある環境への展開が困難になる。
本稿では,RGBと深度の両方を統合した領域レベルの空間推論を明示的に組み込んだ,コンパクトな視覚言語アーキテクチャであるSmolRGPTを提案する。
SmolRGPTは3段階のカリキュラムを採用しており、視覚的特徴と言語的特徴を段階的に整列させ、空間的関係理解を可能にし、タスク固有のデータセットに適応する。
SmolRGPTは6億のパラメータしか持たず、倉庫の空間推論ベンチマークに挑戦し、より大きな代替品の性能にマッチまたは超える結果が得られることを示した。
これらの知見は、コア空間推論能力を犠牲にすることなく、実世界における効率的なデプロイ可能なマルチモーダルインテリジェンスの可能性を強調している。
実験のコードは https://github.com/abtraore/SmolRGPT
関連論文リスト
- TinyGiantVLM: A Lightweight Vision-Language Architecture for Spatial Reasoning under Resource Constraints [1.7542461418660966]
本稿では,空間的推論のための軽量でモジュラーなフレームワークであるTinyGiantVLMを紹介する。
提案手法は,RGBと奥行き変調のグローバルな特徴と地域レベルの特徴を事前学習した視覚的バックボーンを用いて符号化する。
高モダリティ入力と多様な質問型の複雑性を効果的に処理するために、Mixture-of-Experts (MoE) 融合モジュールを組み込む。
論文 参考訳(メタデータ) (2025-08-25T01:36:22Z) - Can Large Language Models Integrate Spatial Data? Empirical Insights into Reasoning Strengths and Computational Weaknesses [11.330846631937671]
我々は,大規模で異質で騒々しい都市空間データセットの統合において,ドメインエキスパートに力を与えるために,大規模言語モデル(LLM)の適用について検討する。
LLMは空間的推論能力を示すが、マクロスケール環境と関連する計算幾何学的タスクを結びつけるのに苦労している。
この手法は, 正確な応答を保ちながら, 誤った初期応答の補正に極めて有効であることを示す。
論文 参考訳(メタデータ) (2025-08-07T03:44:20Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning [34.31268708448338]
本稿では,生深度データを構造化・解釈可能なテキスト論理に変換する新しいフレームワークを提案する。
これらのテキストの有理は、空間的推論能力を著しく向上させる意味のある中間表現として機能する。
中間空間推論アノテーションを付加した100万スケールの視覚言語推論データセットであるSSR-CoTを提案する。
論文 参考訳(メタデータ) (2025-05-18T14:40:16Z) - SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題である
この制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。
空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文 参考訳(メタデータ) (2025-04-02T15:12:17Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。