論文の概要: Tri-Bench: Stress-Testing VLM Reliability on Spatial Reasoning under Camera Tilt and Object Interference
- arxiv url: http://arxiv.org/abs/2512.08860v1
- Date: Tue, 09 Dec 2025 17:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.074133
- Title: Tri-Bench: Stress-Testing VLM Reliability on Spatial Reasoning under Camera Tilt and Object Interference
- Title(参考訳): Tri-Bench: カメラティルトと物体干渉下での空間共振に対する応力試験VLMの信頼性
- Authors: Amit Bendkhale,
- Abstract要約: 検証可能な幾何学的推論は、信頼できる、制御可能なエージェントAIにとって重要な要素である。
平面三角形問題のコンパクトなベンチマークであるTri-Benchを提案する。
我々は,1つの固定プロンプトを用いて,最新の視覚言語モデル(VLM)を4つ評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verifiable geometric reasoning is a critical component for trustworthy and controllable agentic AI. Despite impressive capabilities, Vision-Language Models (VLMs) often fail under realistic scene changes. We present Tri-Bench, a compact benchmark of planar triangle problems that isolates relative geometric reasoning while stressing two deployment-critical factors: camera pose (planar vs. tilted) and scene context via object interference (10 everyday objects). To test verifiability and control, we evaluate four recent VLMs using a single, fixed prompt whose guardrail explicitly describes a surrounding square border, enabling correct answers via homography. We evaluate six simple tasks over binary and continuous targets, and observe that the overall accuracy with respect to 3D ground truth is modest, ~69% on average (best ~75%, worst ~64%). The same responses align even more closely with 2D projections in the image plane, where mean accuracy is ~72%. All four VLMs consistently fail, with accuracy falling to ~0%, on recognizing minority shape classes (equilateral, isosceles, right-angled triangles). Additionally, overall VLM accuracy degrades by ~4.1% under camera tilt. This demonstrates that models fail to correctly utilize the explicit frame-of-reference hint provided in the prompt and default to 2D image plane cues. Finally, we find that object interference has no significant effect on VLM accuracy.
- Abstract(参考訳): 検証可能な幾何学的推論は、信頼できる、制御可能なエージェントAIにとって重要な要素である。
印象的な能力にもかかわらず、視覚言語モデル(VLM)は現実的なシーン変更で失敗することが多い。
本稿では,相対幾何学的推論を分離した平面三角形問題のコンパクトなベンチマークであるTri-Benchについて述べる。
検証可能性と制御性をテストするために,ガードレールが周囲の正方形境界を明示的に記述した単一固定プロンプトを用いて,最近の4つのVLMを評価し,ホモグラフィーによる正しい解答を可能にする。
二つの目標と連続目標に対する6つの単純なタスクを評価し,3次元地上真実に対する全体的な精度は,平均で69%,最低で75%,最低で64%であった。
同じ反応は、平均精度が72%である画像平面の2次元投影とより密に一致している。
4つのVLMは全て一貫して失敗し、精度は ~0% まで低下し、マイノリティな形状のクラス(等角三角形、等角三角形、等角三角形)を認識する。
さらに、VLM全体の精度はカメラ傾斜下で約4.1%低下する。
これは、モデルがプロンプトとデフォルトの2Dイメージプレーンキューで提供される明示的なフレーム・オブ・レファレンスヒントを正しく利用できないことを示す。
最後に,物体干渉がVLM精度に有意な影響を及ぼさないことを発見した。
関連論文リスト
- PRaDA: Projective Radial Distortion Averaging [40.77624901787694]
本研究では, 放射状に歪んだカメラの自動校正問題に挑戦する。
提案手法である射影放射歪平均化法は、完全に射影するフレームワークにおいて、複数の歪み推定を平均化する。
論文 参考訳(メタデータ) (2025-04-23T08:22:59Z) - Active 6D Pose Estimation for Textureless Objects using Multi-View RGB Frames [10.859307261818362]
RBG画像からテクスチャレス物体の6次元ポーズを推定することはロボティクスにおいて重要な問題である。
RGB画像のみを用いてテクスチャレス物体の6次元ポーズを推定するための包括的能動的知覚フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:28:32Z) - DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。
本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。
提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。