論文の概要: Allocentric Perceiver: Disentangling Allocentric Reasoning from Egocentric Visual Priors via Frame Instantiation
- arxiv url: http://arxiv.org/abs/2602.05789v1
- Date: Thu, 05 Feb 2026 15:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.015005
- Title: Allocentric Perceiver: Disentangling Allocentric Reasoning from Egocentric Visual Priors via Frame Instantiation
- Title(参考訳): アロセントリック・パーシーバー:フレーム・インスティファイションによるエゴセントリック・ビジュアル・プライオリティからのアロセントリック・推論
- Authors: Hengyi Wang, Ruiqiang Zhang, Chang Liu, Guanjie Wang, Zehua Ma, Han Fang, Weiming Zhang,
- Abstract要約: Allocentric Perceiverはトレーニング不要の戦略で、1つ以上の画像から、既成の幾何学の専門家でメトリクスの3D状態を復元する。
Allocentric Perceriverは暗黙の推論から明示的な計算へと精神的な回転をオフロードする。
- 参考スコア(独自算出の注目度): 41.434638833165494
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the rising need for spatially grounded tasks such as Vision-Language Navigation/Action, allocentric perception capabilities in Vision-Language Models (VLMs) are receiving growing focus. However, VLMs remain brittle on allocentric spatial queries that require explicit perspective shifts, where the answer depends on reasoning in a target-centric frame rather than the observed camera view. Thus, we introduce Allocentric Perceiver, a training-free strategy that recovers metric 3D states from one or more images with off-the-shelf geometric experts, and then instantiates a query-conditioned allocentric reference frame aligned with the instruction's semantic intent. By deterministically transforming reconstructed geometry into the target frame and prompting the backbone VLM with structured, geometry-grounded representations, Allocentric Perceriver offloads mental rotation from implicit reasoning to explicit computation. We evaluate Allocentric Perciver across multiple backbone families on spatial reasoning benchmarks, observing consistent and substantial gains ($\sim$10%) on allocentric tasks while maintaining strong egocentric performance, and surpassing both spatial-perception-finetuned models and state-of-the-art open-source and proprietary models.
- Abstract(参考訳): Vision-Language Navigation/Actionのような空間的に接地されたタスクの必要性が高まっているため、VLM(Vision-Language Models)におけるアロセンティブな知覚能力が注目されている。
しかしながら、VLMは、観察されたカメラビューではなく、ターゲット中心のフレームでの推論に依存する、明示的な視点シフトを必要とする全中心空間クエリに対して脆弱なままである。
そこで,Alocentric Perceiverを紹介した。これは1つ以上の画像から1つ以上の画像から3D状態を復元し,命令の意味的意図に沿ったクエリ条件でアロセントリックな参照フレームをインスタンス化する,トレーニング不要の戦略である。
再構成された幾何学を対象のフレームに決定論的に変換し、構造化された幾何学的接地表現で背骨VLMを誘導することにより、アロセンセント・パーセリバーは暗黙の推論から明示的な計算へと精神の回転をオフロードする。
我々は、空間的推論ベンチマークに基づいて、複数のバックボーンファミリーにわたるアロセントリックパーシバーを評価し、強いエゴセントリックな性能を維持しながら、アロセントリックなタスクにおける一貫性と実質的なゲイン(\sim$10%)を観察し、空間的知覚に富んだモデルと最先端のオープンソースおよびプロプライエタリなモデルの両方を超越した。
関連論文リスト
- RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Cognitively-Inspired Tokens Overcome Egocentric Bias in Multimodal Models [0.0]
マルチモーダル言語モデル(MLM)は、他のエージェントの視覚的視点を採用する必要がある空間的推論において失敗する。
人間の空間認識にインスパイアされた視点トークンは,(1)具体的身体キーポイント・キュー,あるいは(2)心的回転を支える抽象的表現によって,向きを符号化する。
総合的および自然主義的なベンチマーク全体において、パースペクティブトークンは精度を向上し、ローテーションベースのトークンは非人間参照エージェントに一般化される。
論文 参考訳(メタデータ) (2026-01-23T00:21:27Z) - Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence [10.889641815961133]
空間知能アプローチは通常、2D推論パイプラインやブラックボックス再構成モジュールを備えたMLLMに3Dキューを付加する。
本稿では,マクロ認識とマイクロ検証による進行的空間認知のためのフレームワークであるEagleVisionを提案する。
論文 参考訳(メタデータ) (2025-12-17T07:51:36Z) - CVP: Central-Peripheral Vision-Inspired Multimodal Model for Spatial Reasoning [48.36177110428022]
空間的推論のための中央周辺視覚誘発フレームワーク(CVP)を提案する。
CVPは、中心視と周辺視という2種類の人間の視野からインスピレーションを得ている。
実験の結果,CVPは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2025-12-09T00:21:13Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。