論文の概要: SceneFunRI: Reasoning the Invisible for Task-Driven Functional Object Localization
- arxiv url: http://arxiv.org/abs/2605.14704v1
- Date: Thu, 14 May 2026 11:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.791104
- Title: SceneFunRI: Reasoning the Invisible for Task-Driven Functional Object Localization
- Title(参考訳): SceneFunRI:タスク駆動型関数型オブジェクトのローカライゼーションに見えない理由
- Authors: Posheng Chen, Powen Cheng, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu,
- Abstract要約: Invisibleの推論のためのベンチマークであるSceneFunRIを紹介する。
SceneFunRIはSceneFun3Dデータセットに基づいて、タスクを2次元空間推論問題として定式化する。
タスク命令やコモンセンス推論から見えない機能オブジェクトの位置を推測するモデルが必要である。
- 参考スコア(独自算出の注目度): 19.363096374067403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world scenes, target objects may reside in regions that are not visible. While humans can often infer the locations of occluded objects from context and commonsense knowledge, this capability remains a major challenge for vision-language models (VLMs). To address this gap, we introduce SceneFunRI, a benchmark for Reasoning the Invisible. Based on the SceneFun3D dataset, SceneFunRI formulates the task as a 2D spatial reasoning problem via a semi-automatic pipeline and comprises 855 instances. It requires models to infer the locations of invisible functional objects from task instructions and commonsense reasoning. The strongest baseline model (Gemini 3 Flash) only achieves an CAcc@75 of 15.20, an mIoU of 0.74, and a Dist of 28.65. We group our prompting analysis into three categories: Strong Instruction Prompting, Reasoning-based Prompting, and Spatial Process of Elimination (SPoE). These findings indicate that invisible-region reasoning remains an unstable capability in current VLMs, motivating future work on models that more tightly integrate task intent, commonsense priors, spatial grounding, and uncertainty-aware search.
- Abstract(参考訳): 現実世界のシーンでは、対象のオブジェクトは見えない領域に存在することがある。
人間は文脈や常識的知識から隠蔽された物体の位置を推測することができるが、この能力は視覚言語モデル(VLM)にとって大きな課題である。
このギャップに対処するために、私たちはSceneFunRIを紹介します。
SceneFunRIはSceneFun3Dデータセットに基づいて、半自動パイプラインを介して2次元空間推論問題としてタスクを定式化し、855インスタンスからなる。
タスク命令やコモンセンス推論から見えない機能オブジェクトの位置を推測するモデルが必要である。
最も強力なベースラインモデル(Gemini 3 Flash)は、CAcc@75が15.20、mIoUが0.74、Distが28.65である。
我々は,Strong Instruction Prompting,Reasoning-based Prompting,Spatial Process of Elimination (SPoE)の3つのカテゴリに分けた。
これらの結果は、現在のVLMでは見えない領域推論が不安定な機能であり続けており、タスク意図、コモンセンス先行、空間的接地、不確実性認識探索をより緊密に統合するモデルへの将来の取り組みを動機付けていることを示している。
関連論文リスト
- SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models [60.088066516175026]
視覚言語モデル(VLM)の空間論理的推論能力を評価するためのベンチマークを導入する。
41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。
本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解する再帰的シーングラフ支援手法を提案する。
論文 参考訳(メタデータ) (2026-02-24T13:38:37Z) - Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding [8.202861909913791]
基礎モデルにおけるオブジェクト中心空間推論のベンチマークを示す。
グラウンディングディーノやOWLv2のような検出器は、リレーショナル推論に制限のある正確なボックスを提供する。
本研究は,地域化と真の空間理解のギャップを強調し,地域社会における空間認識基盤モデルの必要性を指摘する。
論文 参考訳(メタデータ) (2025-09-26T06:06:19Z) - FlySearch: Exploring how vision-language models explore [5.7210882663967615]
複雑な場面でオブジェクトを検索してナビゲートするための3D,屋外,環境であるFlySearchを紹介した。
我々は最先端のビジョン・ランゲージ・モデル(VLM)が、最も単純な探索作業でさえ確実に解決できないことを観察する。
我々は、視覚からコンテキスト誤解、タスク計画失敗に至るまで、中心的な原因のセットを特定し、それらの一部が微調整によって対処可能であることを示す。
論文 参考訳(メタデータ) (2025-06-03T14:03:42Z) - CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting [59.830657530592255]
Amodally for Patterns Through Unseen Regions (CAPTURe)は、視覚言語モデルを評価するためのテストベッドである。
CAPTUReでは、4つの強力な視覚言語モデルを評価し、隠蔽パターンと隠蔽パターンの両方でモデルがカウントできないことを発見した。
論文 参考訳(メタデータ) (2025-04-21T23:38:43Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。