論文の概要: 4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding
- arxiv url: http://arxiv.org/abs/2503.17827v1
- Date: Sat, 22 Mar 2025 17:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:43.455578
- Title: 4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding
- Title(参考訳): 4D-Bench: 4Dオブジェクト理解のためのマルチモーダル大言語モデルのベンチマーク
- Authors: Wenxuan Zhu, Bing Li, Cheng Zheng, Jinjie Mai, Jun Chen, Letian Jiang, Abdullah Hamdi, Sara Rojas Martinez, Chia-Wen Lin, Mohamed Elhoseiny, Bernard Ghanem,
- Abstract要約: 4Dオブジェクトを理解する上でのMLLMの能力を評価するために、一般に標準化されたベンチマークは存在しない。
4Dオブジェクト理解におけるMLLMの能力を評価する最初のベンチマークである4D-Benchを紹介する。
- 参考スコア(独自算出の注目度): 83.37551035659119
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive 2D image/video understanding capabilities. However, there are no publicly standardized benchmarks to assess the abilities of MLLMs in understanding the 4D objects (3D objects with temporal evolution over time). In this paper, we introduce 4D-Bench, the first benchmark to evaluate the capabilities of MLLMs in 4D object understanding, featuring tasks in 4D object Question Answering (4D object QA) and 4D object captioning. 4D-Bench provides 4D objects with diverse categories, high-quality annotations, and tasks necessitating multi-view spatial-temporal understanding, different from existing 2D image/video-based benchmarks. With 4D-Bench, we evaluate a wide range of open-source and closed-source MLLMs. The results from the 4D object captioning experiment indicate that MLLMs generally exhibit weaker temporal understanding compared to their appearance understanding, notably, while open-source models approach closed-source performance in appearance understanding, they show larger performance gaps in temporal understanding. 4D object QA yields surprising findings: even with simple single-object videos, MLLMs perform poorly, with state-of-the-art GPT-4o achieving only 63\% accuracy compared to the human baseline of 91\%. These findings highlight a substantial gap in 4D object understanding and the need for further advancements in MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、印象的な2次元画像/映像理解機能を示す。
しかし、4Dオブジェクト(3Dオブジェクト)の時間的進化を理解する上でのMLLMの能力を評価するための標準化されたベンチマークは存在しない。
本稿では、4Dオブジェクト質問応答(4DオブジェクトQA)と4Dオブジェクトキャプションのタスクを特徴とする、4Dオブジェクト理解におけるMLLMの能力を評価する最初のベンチマークである4D-Benchを紹介する。
4D-Benchは、さまざまなカテゴリ、高品質のアノテーション、および既存の2Dイメージ/ビデオベースのベンチマークとは異なる、多視点空間的理解を必要とするタスクを備えた4Dオブジェクトを提供する。
4D-Benchでは,幅広いオープンソースおよびクローズドソースMLLMを評価した。
4Dオブジェクトキャプション実験の結果,MLLMは外観理解よりも時間的理解が弱いことが示唆された。
4DオブジェクトQAは、単純なシングルオブジェクトビデオであっても、最先端のGPT-4oでは、ヒトのベースラインである91\%に比べて63%の精度しか達成できないため、MLLMはパフォーマンスが良くないという驚くべき結果をもたらす。
これらの知見は, 4次元物体理解のギャップとMLLMのさらなる進歩の必要性を浮き彫りにしている。
関連論文リスト
- L4P: Low-Level 4D Vision Perception Unified [17.11032924751659]
我々は,低レベルな4Dタスクを統一されたフレームワークで解く,フィードフォワードで汎用的なアーキテクチャであるL4Pを提案する。
本手法は, 両タスクにおいて, 既存の特殊メソッドの性能に適合するか, 上回っている。
一度にすべてのタスクを一度に解決し、シングルタスクのメソッドに匹敵する。
論文 参考訳(メタデータ) (2025-02-18T17:31:26Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。