論文の概要: NUMINA: A Natural Understanding Benchmark for Multi-dimensional Intelligence and Numerical Reasoning Abilities
- arxiv url: http://arxiv.org/abs/2509.16656v2
- Date: Wed, 01 Oct 2025 01:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 17:16:29.745561
- Title: NUMINA: A Natural Understanding Benchmark for Multi-dimensional Intelligence and Numerical Reasoning Abilities
- Title(参考訳): NUMINA:多次元インテリジェンスと数値推論能力の自然な理解ベンチマーク
- Authors: Changyu Zeng, Yifan Wang, Zimu Wang, Wei Wang, Zhengni Yang, Muyi Bao, Jiming Xiao, Anh Nguyen, Yutao Yue,
- Abstract要約: 我々は,多次元インテリジェンスと数値推論のための最初の自然理解ベンチマークであるNUMINAを紹介する。
Chat-Scene フレームワークによるNUMINA 上での様々な最先端 LLM の性能評価を行った。
- 参考スコア(独自算出の注目度): 13.229850508079073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in 2D multimodal large language models (MLLMs) have significantly improved performance in vision-language tasks. However, extending these capabilities to 3D environments remains a distinct challenge due to the complexity of spatial reasoning. Nevertheless, existing 3D benchmarks often lack fine-grained numerical reasoning task annotations, limiting MLLMs' ability to perform precise spatial measurements and complex numerical reasoning. To address this gap, we introduce NUMINA, the first Natural Understanding benchmark for Multi-dimensional Intelligence and Numerical reasoning Abilities to enhance multimodal indoor perceptual understanding. NUMINA features multi-scale annotations and various question-answer pairs, generated using NUMINA-Flow, an automated annotation pipeline that integrates LLM rewriting and rule-based self-verification. We evaluate the performance of various state-of-the-art LLMs on NUMINA following the Chat-Scene framework, demonstrating that current LLMs struggle with multimodal numerical reasoning, particularly in performing precise computations such as distance and volume estimation, highlighting the need for further advancements in 3D models. The dataset and source codes can be obtained from https://github.com/fengshun124/NUMINA.
- Abstract(参考訳): 2次元多モード大言語モデル(MLLM)の最近の進歩は、視覚言語タスクの性能を大幅に改善した。
しかし、これらの能力を3D環境に拡張することは、空間的推論の複雑さのため、依然として明らかな課題である。
しかし、既存の3Dベンチマークでは微妙な数値推論タスクアノテーションが欠如しており、MLLMが正確な空間測定や複雑な数値推論を行う能力に制限がある。
このギャップに対処するために,多次元インテリジェンスと数値推論能力のための最初の自然理解ベンチマークであるNUMINAを導入する。
NUMINAは、LLM書き換えとルールベースの自己検証を統合する自動アノテーションパイプラインであるNUMINA-Flowを使用して生成される、マルチスケールアノテーションと様々な質問応答ペアを備えている。
Chat-Scene フレームワークによるNUMINA 上での様々な最先端 LLM の性能評価を行い、現在の LLM がマルチモーダル数値推論(特に距離や体積推定などの高精度な計算)に苦しむことを示し、3次元モデルにおけるさらなる進歩の必要性を強調した。
データセットとソースコードはhttps://github.com/fengshun124/NUMINAから取得できる。
関連論文リスト
- MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes [1.0799568216202955]
MLLM(Multimodal Large Language Models)の重要なフロンティアは、画像から直接、数学的および空間的推論を行う能力である。
MARVL-QAは、これらのコア推論スキルを定量的に評価するために設計された新しいベンチマークである。
MARVL-QAは、最先端のMLLMでさえ、頑丈な空間的推論ではなく表面的手法に頼って、かなり苦労していることを明らかにしている。
論文 参考訳(メタデータ) (2025-08-24T01:24:56Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs [19.70116190496693]
MLLM(Multimodal large language model)は、2次元の視覚的理解に優れるが、3次元空間を推論する能力には限界がある。
本研究では,1)新しい教師付き微調整データセットの導入,2)屋内シーンに焦点を当てた新しい評価ベンチマークを導入するために,オープンセットアノテーションを用いた大規模高品質3Dシーンデータを活用する。
論文 参考訳(メタデータ) (2025-03-17T12:34:22Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。