論文の概要: TinyGiantVLM: A Lightweight Vision-Language Architecture for Spatial Reasoning under Resource Constraints
- arxiv url: http://arxiv.org/abs/2508.17595v1
- Date: Mon, 25 Aug 2025 01:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.599741
- Title: TinyGiantVLM: A Lightweight Vision-Language Architecture for Spatial Reasoning under Resource Constraints
- Title(参考訳): TinyGiantVLM:資源制約下での空間推論のための軽量ビジョンランゲージアーキテクチャ
- Authors: Vinh-Thuan Ly, Hoang M. Truong, Xuan-Huong Nguyen,
- Abstract要約: 本稿では,空間的推論のための軽量でモジュラーなフレームワークであるTinyGiantVLMを紹介する。
提案手法は,RGBと奥行き変調のグローバルな特徴と地域レベルの特徴を事前学習した視覚的バックボーンを用いて符号化する。
高モダリティ入力と多様な質問型の複雑性を効果的に処理するために、Mixture-of-Experts (MoE) 融合モジュールを組み込む。
- 参考スコア(独自算出の注目度): 1.7542461418660966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about fine-grained spatial relationships in warehouse-scale environments poses a significant challenge for existing vision-language models (VLMs), which often struggle to comprehend 3D layouts, object arrangements, and multimodal cues in real-world industrial settings. In this paper, we present TinyGiantVLM, a lightweight and modular two-stage framework designed for physical spatial reasoning, distinguishing itself from traditional geographic reasoning in complex logistics scenes. Our approach encodes both global and region-level features from RGB and depth modalities using pretrained visual backbones. To effectively handle the complexity of high-modality inputs and diverse question types, we incorporate a Mixture-of-Experts (MoE) fusion module, which dynamically combines spatial representations to support downstream reasoning tasks and improve convergence. Training is conducted in a two-phase strategy: the first phase focuses on generating free-form answers to enhance spatial reasoning ability, while the second phase uses normalized answers for evaluation. Evaluated on Track 3 of the AI City Challenge 2025, our 64M-parameter base model achieved 5th place on the leaderboard with a score of 66.8861, demonstrating strong performance in bridging visual perception and spatial understanding in industrial environments. We further present an 80M-parameter variant with expanded MoE capacity, which demonstrates improved performance on spatial reasoning tasks.
- Abstract(参考訳): 倉庫規模の環境におけるきめ細かい空間関係の推論は、実世界の産業環境における3Dレイアウト、オブジェクト配置、マルチモーダルキューの理解に苦慮する既存の視覚言語モデル(VLM)にとって大きな課題となる。
本稿では、複雑な物流シーンにおける従来の地理的推論と区別して、空間的推論のための軽量でモジュラーな2段階のフレームワークであるTinyGiantVLMを提案する。
提案手法は,RGBと奥行き変調のグローバルな特徴と地域レベルの特徴を,事前学習した視覚的バックボーンを用いて符号化する。
高モダリティ入力と多様な質問型の複雑性を効果的に処理するために、下流推論タスクをサポートし収束を改善するために空間表現を動的に結合したMixture-of-Experts(MoE)融合モジュールを組み込んだ。
第1フェーズは空間推論能力を高めるために自由形式の回答を生成することに焦点を当て、第2フェーズは評価に正規化された回答を使用する。
AI City Challenge 2025のトラック3で評価され、我々の64Mパラメーターベースモデルは、66.8861のスコアでリーダーボードで5位を獲得し、産業環境における視覚的知覚と空間的理解の橋渡しにおいて、強力なパフォーマンスを示した。
さらに,空間推論タスクの性能向上を示すため,MoE容量を拡張した80Mパラメタモデルを提案する。
関連論文リスト
- EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [19.399925987942204]
視覚言語モデル (VLM) は、幅広い下流タスクにおいて印象的なパフォーマンスを示している。
ほとんどのタスクは、2次元(2D)環境でのコア空間推論能力に依存している。
本稿では,合成データ生成を用いて視覚言語モデル(VLM)を3つの基本的な空間的能力で監視するフレームワークであるSparkleを紹介する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。