論文の概要: Ascending the Infinite Ladder: Benchmarking Spatial Deformation Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.02978v1
- Date: Tue, 01 Jul 2025 03:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.493174
- Title: Ascending the Infinite Ladder: Benchmarking Spatial Deformation Reasoning in Vision-Language Models
- Title(参考訳): 無限ラダーの蓄積:視覚・言語モデルにおける空間的変形推論のベンチマーク
- Authors: Jiahuan Zhang, Shunwen Bai, Tianheng Wang, Kaiwen Guo, Kai Han, Guozheng Rao, Kaicheng Yu,
- Abstract要約: 視覚言語モデル(VLM)の性能評価を目的とした新しい評価フレームワークを提案する。
2次元から3次元への空間的変形推論のためのベンチマークを構築した。
モデルが2方向からの空間的変形推論を効果的に行うことができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 20.34249941341219
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Humans naturally possess the spatial reasoning ability to form and manipulate images and structures of objects in space. There is an increasing effort to endow Vision-Language Models (VLMs) with similar spatial reasoning capabilities. However, it remains unclear whether these models truly understand and manipulate spatial objects or not. To address this question, we propose a new evaluation framework aimed at assessing the performance of VLMs in spatial deformation reasoning tasks. Specifically, we construct a benchmark for spatial deformation reasoning from 2D to 3D. Leveraging our data engine, we can generate unlimited evaluation problem pairs with infinite steps, without any data leakage. We explore whether the model can effectively perform spatial deformation reasoning from two directions: forward reasoning (given the operations, find the final state) and reverse reasoning (given the final state, determine the operations). We adopt a ladder competition format, using the number of deformation steps as the level classification criterion, with the goal of exploring the boundaries of the model's deformation reasoning capabilities. Interestingly, the benchmarking results reveal that almost no model demonstrates plausible spatial deformation reasoning abilities. Furthermore, even after applying targeted training and mainstream reasoning enhancement methods, the models are still unable to perform well on 3D spatial deformation reasoning.
- Abstract(参考訳): 人間は自然に空間的推論能力を持ち、空間内の物体の画像や構造を形成・操作する。
視覚言語モデル(VLM)を同様の空間推論能力で実現しようとする動きが増えている。
しかし、これらのモデルが空間オブジェクトを真に理解し、操作するかどうかは不明である。
そこで本稿では,空間変形推論タスクにおけるVLMの性能評価を目的とした新しい評価フレームワークを提案する。
具体的には,2次元から3次元への空間的変形推論のベンチマークを構築する。
データエンジンを活用することで、データ漏洩なしに無限ステップで無制限な評価問題ペアを生成することができます。
モデルが2つの方向から空間的変形推論を効果的に行うことができるかどうかを考察する。
モデルの変形推論能力の境界を探索することを目的として, レベル分類基準として変形ステップの数を用いて, はしご競合形式を採用する。
興味深いことに、ベンチマークの結果は、ほぼすべてのモデルが、空間的変形推論能力を示すことを示した。
さらに, 目標学習法や主流推論法を適用しても, モデルが3次元空間的変形推論において良好な性能を発揮することはできない。
関連論文リスト
- Enhancing Spatial Reasoning through Visual and Textual Thinking [45.0026939683271]
空間的推論タスクは,2次元空間と3次元空間の空間的関係を推論することを目的としている。
近年,視覚言語モデル (VLM) は急速に発展してきたが,空間推論の課題に苦戦している。
視覚的思考とテキスト思考を同時に行うことによって空間的推論を向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T05:24:54Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Uncertainty-aware 3D Object-Level Mapping with Deep Shape Priors [15.34487368683311]
未知のオブジェクトに対して高品質なオブジェクトレベルマップを再構築するフレームワークを提案する。
提案手法では,複数のRGB-D画像を入力として,高密度な3次元形状と検出対象に対する9-DoFポーズを出力する。
2つの新たな損失関数を通して形状を伝播し不確実性を生じさせる確率的定式化を導出する。
論文 参考訳(メタデータ) (2023-09-17T00:48:19Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - Aligning Silhouette Topology for Self-Adaptive 3D Human Pose Recovery [70.66865453410958]
アーティキュレーション中心の2D/3Dポーズ監視は、既存の多くの人間のポーズ推定技術においてコアトレーニング目標を形成する。
本稿では,ソース学習モデルベース回帰器を適応させるために,シルエット監視のみに依存する新しいフレームワークを提案する。
我々は、トポロジカル・スケルトン表現を生シルエットから切り離すために、一連の畳み込みに優しい空間変換を開発する。
論文 参考訳(メタデータ) (2022-04-04T06:58:15Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Disentangling Geometric Deformation Spaces in Generative Latent Shape
Models [5.582957809895198]
3Dオブジェクトの完全な表現には、解釈可能な方法で変形の空間を特徴づける必要がある。
本研究では,物体形状の空間を剛性方向,非剛性ポーズ,内在的な形状に分解する3次元形状の不整合の事前生成モデルを改善する。
得られたモデルは生の3D形状からトレーニングできる。
論文 参考訳(メタデータ) (2021-02-27T06:54:31Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。