論文の概要: SpatiO: Adaptive Test-Time Orchestration of Vision-Language Agents for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2604.21190v2
- Date: Tue, 28 Apr 2026 07:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.797687
- Title: SpatiO: Adaptive Test-Time Orchestration of Vision-Language Agents for Spatial Reasoning
- Title(参考訳): SpatiO:空間推論のための視覚言語エージェントの適応的テスト時間オーケストレーション
- Authors: Chan Yeong Hwang, Miso Choi, Sunghyun On, Jinkyu Kim, Jungbeom Lee,
- Abstract要約: 空間的推論には、入力に応じて異なる戦略を柔軟に調整する必要がある。
既存のアプローチのほとんどは、固定空間を暗黙的に学習する単一の推論パイプラインに依存している。
空間推論のための異種多エージェントフレームワークであるSpatiOを導入し、複数の視覚言語の専門家と相補的帰納バイアスを協調する。
- 参考スコア(独自算出の注目度): 18.3204772691015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding visual scenes requires not only recognizing objects but also reasoning about their spatial relationships. Unlike general vision-language tasks, spatial reasoning requires integrating multiple inductive biases, such as 2D appearance cues, depth signals, and geometric constraints, whose reliability varies across contexts. This suggests that effective spatial reasoning requires \emph{spatial adaptability}: the ability to flexibly coordinate different reasoning strategies depending on the input. However, most existing approaches rely on a single reasoning pipeline that implicitly learns a fixed spatial prior, limiting their ability to adapt under distribution changes. Multi-agent systems offer a promising alternative by aggregating diverse reasoning trajectories, but prior attempts in spatial reasoning primarily employ homogeneous agents, restricting the diversity of inductive biases they can leverage. In this work, we introduce SpatiO, a heterogeneous multi-agent framework for spatial reasoning that coordinates multiple vision-language specialists with complementary inductive biases. To enable effective collaboration, we propose Test-Time Orchestration (TTO), an optimization mechanism that dynamically evaluates and reweights agents based on their observed reliability during inference, without modifying model parameters. Extensive experiments on diverse spatial reasoning benchmarks, including 3DSRBench, STVQA-7k, CV-Bench, and Omni3D-Bench, demonstrate that SpatiO consistently improves spatial reasoning performance over both closed-source and open-source baselines.
- Abstract(参考訳): 視覚的なシーンを理解するには、物体を認識するだけでなく、それらの空間的関係を推論する必要がある。
一般的な視覚言語タスクとは異なり、空間的推論は2次元の外観の手がかり、深度信号、幾何的制約などの複数の帰納バイアスを統合する必要があり、その信頼性は状況によって異なる。
このことは、効果的な空間推論には、入力に応じて異なる推論戦略を柔軟に調整する能力である 'emph{spatial adaptability} が必要であることを示唆している。
しかし、既存のほとんどのアプローチは、固定された空間事前を暗黙的に学習する単一の推論パイプラインに依存しており、分布変化の下で適応する能力を制限する。
マルチエージェントシステムは、様々な推論軌道を集約することで、有望な代替手段を提供するが、空間的推論の以前の試みは、主に均質なエージェントを使用し、それらが活用できる誘導バイアスの多様性を制限する。
本研究では、空間的推論のための異種多エージェントフレームワークであるSpatiOを紹介し、複数の視覚言語スペシャリストと相補的帰納的バイアスを協調する。
モデルパラメータを変更することなく、推論中に観測された信頼性に基づいてエージェントを動的に評価・重み付けする最適化機構であるテスト時間オーケストレーション(TTO)を提案する。
3DSRBench、STVQA-7k、CV-Bench、Omni3D-Benchを含む様々な空間推論ベンチマークに関する大規模な実験は、SpatiOがクローズドソースベースラインとオープンソースベースラインの両方に対して一貫して空間推論性能を改善することを示した。
関連論文リスト
- SpatialImaginer: Towards Adaptive Visual Imagination for Spatial Reasoning [67.67774742200626]
空間知能は、視覚的な観察から幾何学的および物理的構造を推論する能力を指すもので、大きな言語モデルにとって重要な課題である。
テキスト推論と視覚的想像力を組み合わせた統合型マルチモーダル生成フレームワークを提案する。
本フレームワークでは,高レベルなセマンティックプランニングのためのテキストチェーンと,幾何感応的な状態変換と整合性保存のための視覚的想像力を用いて,分割・対数戦略を採用している。
論文 参考訳(メタデータ) (2026-04-19T11:21:59Z) - GESS: Multi-cue Guided Local Feature Learning via Geometric and Semantic Synergy [31.32050433924969]
局所的な特徴の検出と記述はコンピュータビジョンの基本課題である。
既存の手法は1つの外観の手がかりをモデリングに頼っており、不安定なキーポイントとディスクリプタ識別性に欠ける。
本稿では,意味的および幾何学的手がかりを活用して,検出の堅牢性と記述者の識別性を高めるマルチキューガイド型局所特徴学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-07T02:57:26Z) - Learning Topology-Driven Multi-Subspace Fusion for Grassmannian Deep Network [31.003374497881968]
グラスマン多様体は幾何学的表現学習のための強力なキャリアを提供する。
本稿では,グラスマン多様体上での適応的部分空間協調を実現するトポロジ駆動型多部分空間融合フレームワークを提案する。
我々の研究は幾何学的深層学習を推進し、ユークリッドネットワークの証明されたマルチチャネル相互作用の哲学を非ユークリッド領域に適用する。
論文 参考訳(メタデータ) (2025-11-09T10:33:13Z) - Towards Inference-time Scaling for Continuous Space Reasoning [55.40260529506702]
推論時間スケーリングは、大規模言語モデルにおけるテキストベースの推論に有効であることが証明されている。
本稿では,そのような確立された手法が連続空間における推論にうまく適応できるかどうかを考察する。
本研究では,ドロップアウト型サンプリングによる多種多様な推論経路の実現可能性を示す。
論文 参考訳(メタデータ) (2025-10-14T05:53:41Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。