論文の概要: SPATIOROUTE: Dynamic Prompt Routing for Zero-Shot Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2605.18209v1
- Date: Mon, 18 May 2026 10:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.409244
- Title: SPATIOROUTE: Dynamic Prompt Routing for Zero-Shot Spatial Reasoning
- Title(参考訳): SPATIOROUTE:ゼロショット空間推論のための動的プロンプトルーティング
- Authors: Pawat Chunhachatrachai, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu,
- Abstract要約: 本稿では,各質問をセマンティックにカスタマイズしたプロンプトテンプレートにルーティングする動的プロンプト生成手法であるSpatioRouteを紹介する。
SpatioRouteは、固定されたプロンプトベースラインに対して、一貫した全体的な精度を最大5%向上させ、ゼロショットビデオのみの空間VQAのための新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 20.773619604028283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial question answering over egocentric video is a challenging task that requires Vision-Language Models (VLMs) to reason about 3D object positions, scene affordances, and directional relationships, particularly in the zero-shot setting where no task-specific fine-tuning is available. We introduce SpatioRoute, a dynamic prompt generation approach that routes each incoming question to a semantically tailored prompt template -- without any additional training, fine-tuning, or 3D sensor input. SpatioRoute operates in two complementary modes: SpatioRoute-R, a rule-based router that deterministically maps question typologies (e.g., What, Is, How, Can, Which) to specialized prompt templates; and SpatioRoute-L, an LLM-driven approach that generates task-specific prompts from the question and situational context alone, with no video input at routing time. We evaluate SpatioRoute on the SQA3D benchmark across VLMs spanning model families. SpatioRoute achieves consistent overall accuracy gains up to 5% over fixed prompt baselines, establishing a new state-of-the-art for zero-shot video-only spatial VQA without requiring 3D point-cloud inputs. As an additional finding, we observe that Chain-of-Thought (CoT) prompting, implemented via the Think it Twice architecture, consistently degrades performance in this setting on Qwen series models, confirming that question-aware routing is more effective than uniform reasoning instructions for spatial video understanding.
- Abstract(参考訳): エゴセントリックビデオ上での空間的質問応答は、特にタスク固有の微調整ができないゼロショット環境では、視覚言語モデル(VLM)が3Dオブジェクトの位置、シーンの空き時間、方向の関係を推論する難しいタスクである。
SpatioRouteは動的なプロンプト生成アプローチで、各質問をセマンティックにカスタマイズされたプロンプトテンプレートにルーティングする。
SpatioRouteは2つの補完モードで機能する: SpatioRoute-Rはルールベースのルータで、質問型(例えば、What, Is, How, Can, Which)を特別なプロンプトテンプレートにマッピングする。
モデルファミリにまたがるVLMを対象としたSQA3DベンチマークでSpatioRouteを評価する。
SpatioRouteは、固定されたプロンプトベースラインに対して、一貫した全体的な精度を最大5%向上させ、3Dポイントクラウド入力を必要とせずに、ゼロショットビデオのみの空間VQAのための新しい最先端技術を確立する。
さらに,Qwen級数モデルにおけるこの設定では,Chain-of-Thought(CoT)がThink it Twiceアーキテクチャを介して実装され,常に性能を低下させ,空間的ビデオ理解のための一様推論命令よりも質問認識ルーティングの方が有効であることを確認した。
関連論文リスト
- DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion [2.061143628317803]
最近の視覚言語アクション(VLA)モデルは、視覚入力から直接アクションを推測するが、膨大な計算資源を必要とする。
本稿では,画像空間の拡散を統一的に行うことで,距離空間のナビゲーションとセンチメートルの操作を両立させる。
このモデルは、新規シーンへの堅牢なゼロショットの一般化を実現しつつ、オンボード展開に適している。
論文 参考訳(メタデータ) (2026-03-27T11:40:13Z) - The Workload-Router-Pool Architecture for LLM Inference Optimization: A Vision Paper from the vLLM Semantic Router Project [30.96691028676722]
vLLM Semantic Routerプロジェクトは、信号駆動ルーティング、コンテキスト長プールルーティング、ルータパフォーマンスエンジニアリング、ポリシー競合検出、低レイテンシ組み込みモデル、カテゴリ認識セマンティックキャッシング、ユーザフィードバック駆動ルーティング適応、幻覚検出、プライバシーとジェイルブレイク保護のための階層的コンテンツ安全分類を対象とする一連の作業をリリースした。
本稿では,LLM推論最適化のための3次元フレームワークであるWorkload-Pool-Poolアーキテクチャについて述べる。
論文 参考訳(メタデータ) (2026-03-22T18:30:11Z) - CoV: Chain-of-View Prompting for Spatial Reasoning [64.77921266428824]
CoV(Chain-of-View)は、視覚言語モデルをアクティブな視点推論子に変換する。
我々はOpenEQA上でのCoVの評価を行い、Qwen3-VL-Flashで最大13.62%向上したLLM-Matchで平均+11.56%改善した。
論文 参考訳(メタデータ) (2026-01-08T17:59:42Z) - iFinder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning [51.15353027471834]
iFinderは、ダッシュカムのビデオを大規模な言語モデルのための階層的で解釈可能なデータ構造に変換するセマンティックグラウンドディングフレームワークである。
iFinderはトレーニング不要のパイプラインとして動作し、トレーニング済みの視覚モデルを使用して重要な手がかりを抽出する。
これは、4つのゼロショット駆動ベンチマークにおいて、エンドツーエンドのV-VLMよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-09-23T20:25:53Z) - Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [56.32589034046427]
本研究では,ダイナミックポイントマップ(DPM)を導入し,モーションセグメンテーション,シーンフロー推定,3次元物体追跡,2次元対応などの4次元タスクをサポートする標準点マップを拡張した。
我々は,合成データと実データを組み合わせたDPM予測器を訓練し,映像深度予測,ダイナミックポイントクラウド再構成,3次元シーンフロー,オブジェクトポーズ追跡,最先端性能の達成など,様々なベンチマークで評価する。
論文 参考訳(メタデータ) (2025-03-20T16:41:50Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。