論文の概要: PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2502.08636v2
- Date: Thu, 13 Feb 2025 06:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:34.001673
- Title: PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models
- Title(参考訳): PulseCheck457: 大規模マルチモーダルモデルの6次元空間推論のための診断ベンチマーク
- Authors: Xingrui Wang, Wufei Ma, Tiezheng Zhang, Celso M de Melo, Jieneng Chen, Alan Yuille,
- Abstract要約: 空間推論のための4つの重要な機能を備えた,スケーラブルで偏りのない合成データセットを提案する。
本研究では,5つの難易度にまたがって7つの質問型を構成するカスケード評価構造を構築した。
特に3次元推論や6次元空間的タスクにおいて,タスクの複雑さが増大するにつれて,パフォーマンスの全般的な低下が観察される。
- 参考スコア(独自算出の注目度): 8.499125564147834
- License:
- Abstract: Although large multimodal models (LMMs) have demonstrated remarkable capabilities in visual scene interpretation and reasoning, their capacity for complex and precise 3-dimensional spatial reasoning remains uncertain. Existing benchmarks focus predominantly on 2D spatial understanding and lack a framework to comprehensively evaluate 6D spatial reasoning across varying complexities. To address this limitation, we present PulseCheck457, a scalable and unbiased synthetic dataset designed with 4 key capability for spatial reasoning: multi-object recognition, 2D location, 3D location, and 3D orientation. We develop a cascading evaluation structure, constructing 7 question types across 5 difficulty levels that range from basic single object recognition to our new proposed complex 6D spatial reasoning tasks. We evaluated various large multimodal models (LMMs) on PulseCheck457, observing a general decline in performance as task complexity increases, particularly in 3D reasoning and 6D spatial tasks. To quantify these challenges, we introduce the Relative Performance Dropping Rate (RPDR), highlighting key weaknesses in 3D reasoning capabilities. Leveraging the unbiased attribute design of our dataset, we also uncover prediction biases across different attributes, with similar patterns observed in real-world image settings.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、視覚的シーンの解釈や推論において顕著な能力を示したが、複雑で正確な3次元空間推論の能力は未だ不明である。
既存のベンチマークは、主に2次元空間的理解に焦点を当てており、様々な複雑さにわたる6次元空間的推論を包括的に評価する枠組みが欠如している。
この制限に対処するため、PulseCheck457は、空間的推論のための4つの重要な機能を備えたスケーラブルで非バイアスの合成データセットである。
本研究では,基本的な単一物体認識から,新たに提案した複雑な6次元空間推論タスクまで,5つの難易度にまたがる7つの質問タイプを構築するカスケード評価構造を構築した。
我々はPulseCheck457上の様々な大規模マルチモーダルモデル(LMM)を評価し、特に3次元推論と6次元空間的タスクにおいて、タスクの複雑さが増大するにつれて、パフォーマンスが全般的に低下するのを観察した。
これらの課題を定量化するために、我々は3D推論機能における重要な弱点を浮き彫りにしたRPDR(Relative Performance Dropping Rate)を紹介します。
データセットのバイアスのない属性設計を活用することで、さまざまな属性にまたがる予測バイアスも発見できます。
関連論文リスト
- A Novel Convolution and Attention Mechanism-based Model for 6D Object Pose Estimation [49.1574468325115]
RGB画像から6Dオブジェクトのポーズを推定することは、深度情報の欠如が2次元投影から3次元構造を推定する必要があるため困難である。
従来の手法はグリッドベースのデータ構造によるディープラーニングに頼っていることが多いが、抽出された機能間の複雑な依存関係を捉えるのに苦労している。
本稿では,各画素の時間的特徴がノードとして機能し,それらの関係はノード接続や空間的相互作用を通じて定義される,画像から直接のグラフベース表現を提案する。
論文 参考訳(メタデータ) (2024-12-31T18:47:54Z) - 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [17.94511890272007]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation [74.44739529186798]
Omni6Dは、さまざまなカテゴリとさまざまな背景を持つ総合的なRGBDデータセットである。
データセットは166のカテゴリ、標準ポーズに調整された4688のインスタンス、0.8万以上のキャプチャで構成されている。
我々は、このイニシアチブが、産業と学術の両方において、新たな洞察と実質的な進歩の道を開くと信じている。
論文 参考訳(メタデータ) (2024-09-26T20:13:33Z) - Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking [9.365544189576363]
6D Object Pose Estimationは、大規模なデータセットの不足に悩まされているコンピュータビジョンにおいて、決定的に難しいタスクである。
本稿では,Omni6DPoseについて紹介する。Omni6DPoseは,オブジェクトのカテゴリ,大規模,多様性の多様性を特徴とするデータセットである。
我々は、SOTAカテゴリレベルのポーズ推定フレームワークの強化版であるGenPose++を紹介し、2つの重要な改善を取り入れた。
論文 参考訳(メタデータ) (2024-06-06T17:57:20Z) - Advancing 6D Pose Estimation in Augmented Reality -- Overcoming Projection Ambiguity with Uncontrolled Imagery [0.0]
本研究では,拡張現実(AR)における正確な6次元ポーズ推定の課題に対処する。
本稿では,z軸変換と焦点長の推定を戦略的に分解する手法を提案する。
この手法は6次元ポーズ推定プロセスの合理化だけでなく、AR設定における3次元オブジェクトのオーバーレイの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-20T09:22:22Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - CenterSnap: Single-Shot Multi-Object 3D Shape Reconstruction and
Categorical 6D Pose and Size Estimation [19.284468553414918]
本稿では, 単視点RGB-D観測による同時多目的3次元再構成, 6次元ポーズ, サイズ推定の複雑な課題について検討する。
既存のアプローチは主に、イメージ内の各オブジェクトインスタンスをローカライズして検出し、3Dメッシュまたは6Dポーズに回帰する複雑なマルチステージパイプラインに従う。
本研究では,3次元形状の予測と6次元ポーズと大きさの同時推定を,バウンディングボックスフリーで行うための簡単な一段階的手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。