Fugu-MT 論文翻訳(概要): PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models

論文の概要: PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models

arxiv url: http://arxiv.org/abs/2502.08636v2
Date: Thu, 13 Feb 2025 06:42:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 13:25:30.848591
Title: PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models
Title（参考訳）: PulseCheck457: 大規模マルチモーダルモデルの6次元空間推論のための診断ベンチマーク
Authors: Xingrui Wang, Wufei Ma, Tiezheng Zhang, Celso M de Melo, Jieneng Chen, Alan Yuille,
Abstract要約: 空間推論のための4つの重要な機能を備えた,スケーラブルで偏りのない合成データセットを提案する。本研究では,5つの難易度にまたがって7つの質問型を構成するカスケード評価構造を構築した。特に3次元推論や6次元空間的タスクにおいて,タスクの複雑さが増大するにつれて,パフォーマンスの全般的な低下が観察される。
参考スコア（独自算出の注目度）: 8.499125564147834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although large multimodal models (LMMs) have demonstrated remarkable capabilities in visual scene interpretation and reasoning, their capacity for complex and precise 3-dimensional spatial reasoning remains uncertain. Existing benchmarks focus predominantly on 2D spatial understanding and lack a framework to comprehensively evaluate 6D spatial reasoning across varying complexities. To address this limitation, we present PulseCheck457, a scalable and unbiased synthetic dataset designed with 4 key capability for spatial reasoning: multi-object recognition, 2D location, 3D location, and 3D orientation. We develop a cascading evaluation structure, constructing 7 question types across 5 difficulty levels that range from basic single object recognition to our new proposed complex 6D spatial reasoning tasks. We evaluated various large multimodal models (LMMs) on PulseCheck457, observing a general decline in performance as task complexity increases, particularly in 3D reasoning and 6D spatial tasks. To quantify these challenges, we introduce the Relative Performance Dropping Rate (RPDR), highlighting key weaknesses in 3D reasoning capabilities. Leveraging the unbiased attribute design of our dataset, we also uncover prediction biases across different attributes, with similar patterns observed in real-world image settings.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は、視覚的シーンの解釈や推論において顕著な能力を示したが、複雑で正確な3次元空間推論の能力は未だ不明である。既存のベンチマークは、主に2次元空間的理解に焦点を当てており、様々な複雑さにわたる6次元空間的推論を包括的に評価する枠組みが欠如している。この制限に対処するため、PulseCheck457は、空間的推論のための4つの重要な機能を備えたスケーラブルで非バイアスの合成データセットである。本研究では,基本的な単一物体認識から,新たに提案した複雑な6次元空間推論タスクまで,5つの難易度にまたがる7つの質問タイプを構築するカスケード評価構造を構築した。我々はPulseCheck457上の様々な大規模マルチモーダルモデル(LMM)を評価し、特に3次元推論と6次元空間的タスクにおいて、タスクの複雑さが増大するにつれて、パフォーマンスが全般的に低下するのを観察した。これらの課題を定量化するために、我々は3D推論機能における重要な弱点を浮き彫りにしたRPDR(Relative Performance Dropping Rate)を紹介します。データセットのバイアスのない属性設計を活用することで、さまざまな属性にまたがる予測バイアスも発見できます。

関連論文リスト

SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
Struct2D: A Perception-Guided Framework for Spatial Reasoning in Large Multimodal Models [24.897120944471347]
Struct2Dは、バードアイビュー(BEV)イメージとオブジェクトマークとオブジェクト中心のメタデータを組み合わせた知覚誘導プロンプトフレームワークである。その結果,LMMは2次元入力を構造化した場合,驚くほど強い空間推論能力を示すことがわかった。オープンソースのLMM(Qwen2.5VL)をStruct2D-Set上で微調整し、複数のベンチマークで競合性能を実現する。
論文参考訳（メタデータ） (2025-06-04T17:58:04Z)
E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。 GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文参考訳（メタデータ） (2025-06-02T17:53:09Z)
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-27T17:59:26Z)
SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning [23.6011224506759]
本稿では3次元空間推論に対処する新しい大規模視覚言語モデル(LVLM)を提案する。明示的な3D表現は、高度な3D空間推論をサポートするコヒーレントインターフェースを提供する。その結果,SpatialReasonerは,様々な空間推論ベンチマークの性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2025-04-28T17:48:43Z)
3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [17.94511890272007]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。 2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文参考訳（メタデータ） (2024-12-10T18:55:23Z)
X as Supervision: Contending with Depth Ambiguity in Unsupervised Monocular 3D Pose Estimation [12.765995624408557]
マルチハイポテーシス検出と複数の調整済みプレテキストタスクを特徴とする教師なしフレームワークを提案する。ローカルウィンドウ内のヒートマップから複数の仮説を抽出し、マルチソリューション問題を効果的に管理する。プリテキストタスクは、SMPLモデルからの3D人間の事前情報を利用して、ポーズ推定の解空間を規則化し、それを3D人間の構造を経験的分布と整合させる。
論文参考訳（メタデータ） (2024-11-20T04:18:11Z)
Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation [74.44739529186798]
Omni6Dは、さまざまなカテゴリとさまざまな背景を持つ総合的なRGBDデータセットである。データセットは166のカテゴリ、標準ポーズに調整された4688のインスタンス、0.8万以上のキャプチャで構成されている。我々は、このイニシアチブが、産業と学術の両方において、新たな洞察と実質的な進歩の道を開くと信じている。
論文参考訳（メタデータ） (2024-09-26T20:13:33Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking [9.365544189576363]
6D Object Pose Estimationは、大規模なデータセットの不足に悩まされているコンピュータビジョンにおいて、決定的に難しいタスクである。本稿では,Omni6DPoseについて紹介する。Omni6DPoseは,オブジェクトのカテゴリ,大規模,多様性の多様性を特徴とするデータセットである。我々は、SOTAカテゴリレベルのポーズ推定フレームワークの強化版であるGenPose++を紹介し、2つの重要な改善を取り入れた。
論文参考訳（メタデータ） (2024-06-06T17:57:20Z)
MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。 6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文参考訳（メタデータ） (2024-04-21T09:15:02Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文参考訳（メタデータ） (2023-10-02T08:49:56Z)
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文参考訳（メタデータ） (2023-07-01T13:53:14Z)
Towards Multimodal Multitask Scene Understanding Models for Indoor Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。 MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。 MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。 MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文参考訳（メタデータ） (2022-09-27T04:49:19Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文参考訳（メタデータ） (2022-03-28T10:31:29Z)
3D Point-to-Keypoint Voting Network for 6D Pose Estimation [8.801404171357916]
3次元キーポイントの空間構造特性に基づくRGB-Dデータから6次元ポーズ推定のためのフレームワークを提案する。提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。
論文参考訳（メタデータ） (2020-12-22T11:43:15Z)
Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文参考訳（メタデータ） (2020-06-12T09:37:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。