論文の概要: Towards Physics-informed Spatial Intelligence with Human Priors: An Autonomous Driving Pilot Study
- arxiv url: http://arxiv.org/abs/2510.21160v1
- Date: Fri, 24 Oct 2025 05:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.393388
- Title: Towards Physics-informed Spatial Intelligence with Human Priors: An Autonomous Driving Pilot Study
- Title(参考訳): 物理インフォームド・スペースインテリジェンスを目指して--自律運転パイロットによる研究
- Authors: Guanlin Wu, Boyan Su, Yang Zhao, Pu Wang, Yichen Lin, Hao Frank Yang,
- Abstract要約: 現在の実践は、純粋にテキストプロンプトとVQAスタイルのスコアリングを備えた視覚空間知能をプロキシする。
SIG(Spatial Intelligence Grid)は、オブジェクトのレイアウト、オブジェクト間の関係、物理的に接地された事前情報をエンコードする、構造化されたグリッドベースのスキーマである。
数ショットの学習では、SIGはVQAのみの表現に比べて一貫して大きく、より安定し、より包括的なゲインを得る。
- 参考スコア(独自算出の注目度): 11.95708935775877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to integrate and verify spatial intelligence in foundation models remains an open challenge. Current practice often proxies Visual-Spatial Intelligence (VSI) with purely textual prompts and VQA-style scoring, which obscures geometry, invites linguistic shortcuts, and weakens attribution to genuinely spatial skills. We introduce Spatial Intelligence Grid (SIG): a structured, grid-based schema that explicitly encodes object layouts, inter-object relations, and physically grounded priors. As a complementary channel to text, SIG provides a faithful, compositional representation of scene structure for foundation-model reasoning. Building on SIG, we derive SIG-informed evaluation metrics that quantify a model's intrinsic VSI, which separates spatial capability from language priors. In few-shot in-context learning with state-of-the-art multimodal LLMs (e.g. GPT- and Gemini-family models), SIG yields consistently larger, more stable, and more comprehensive gains across all VSI metrics compared to VQA-only representations, indicating its promise as a data-labeling and training schema for learning VSI. We also release SIGBench, a benchmark of 1.4K driving frames annotated with ground-truth SIG labels and human gaze traces, supporting both grid-based machine VSI tasks and attention-driven, human-like VSI tasks in autonomous-driving scenarios.
- Abstract(参考訳): 基礎モデルの空間的インテリジェンスの統合と検証は、依然としてオープンな課題である。
現在の慣習は、純粋にテキストのプロンプトとVQAスタイルのスコアで視覚空間知能(VSI)をプロキシし、幾何学を曖昧にし、言語的ショートカットを招待し、真の空間的スキルへの帰属を弱める。
SIG(Spatial Intelligence Grid)は、オブジェクトのレイアウト、オブジェクト間の関係、物理的に接地された事前情報を明示的にエンコードする、構造化されたグリッドベースのスキーマである。
テキストを補完するチャネルとして、SIGは基礎モデル推論のためのシーン構造の忠実で構成的な表現を提供する。
SIGに基づいて,モデル固有のVSIを定量化するSIGインフォームド評価指標を導出する。
最先端のマルチモーダルLLM(例えばGPTモデルとジェミニモデル)を使った数ショットのインコンテキスト学習では、SIGはVQAのみの表現と比較して、VSIを学習するためのデータラベル付けおよびトレーニングスキーマとして、より大きく、より安定しており、より包括的なVSIメトリクスのゲインを一貫して獲得する。
我々はまた、グリッドベースのマシンVSIタスクと、自動運転シナリオにおける注目駆動の人間ライクなVSIタスクの両方をサポートする、地味なSIGラベルと人間の視線トレースで注釈付けされた1.4Kの駆動フレームのベンチマークであるSIGBenchをリリースした。
関連論文リスト
- Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models [21.28937516885804]
我々は,タスクを4つの基本四分節に分類する認知的基盤の分類に基づく統合ベンチマークtextbfSpatial-DISEを提案する。
データ不足の問題に対処するため,多様かつ検証可能な空間的推論問題を生成するスケーラブルで自動化されたパイプラインを開発した。
論文 参考訳(メタデータ) (2025-10-15T10:44:01Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion [52.959716866316604]
カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
論文 参考訳(メタデータ) (2025-09-14T09:07:41Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Assured Autonomy with Neuro-Symbolic Perception [11.246557832016238]
サイバー物理システム(CPS)にデプロイされる最先端AIモデルの多くは、パターンマッチングである。
セキュリティの保証が限られているため、安全クリティカルなドメインと競合するドメインの信頼性が懸念される。
本稿では,データ駆動型知覚モデルにシンボル構造を付与するパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2025-05-27T15:21:06Z) - Hierarchical Instruction-aware Embodied Visual Tracking [35.73851196966425]
User-Centric Embodied Visual Tracking (UC-EVT)は、強化学習に基づくモデルにおいて、新しい課題を提示している。
我々は,テキスト空間目標を仲介として利用する命令理解と行動生成を橋渡しする,テキストbfインストラクションを意識した身体的視覚追跡(HIEVT)エージェントを提案する。
論文 参考訳(メタデータ) (2025-05-27T04:36:26Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。