論文の概要: GePBench: Evaluating Fundamental Geometric Perception for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2412.21036v2
- Date: Sun, 16 Feb 2025 07:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:05.571192
- Title: GePBench: Evaluating Fundamental Geometric Perception for Multimodal Large Language Models
- Title(参考訳): GePBench:マルチモーダル大規模言語モデルに対する基本的な幾何学的知覚の評価
- Authors: Shangyu Xing, Changhao Xiang, Yuteng Han, Yifan Yue, Zhen Wu, Xinyu Liu, Zhangtai Wu, Fei Zhao, Xinyu Dai,
- Abstract要約: 本稿では,MLLMの幾何学的知覚能力を評価するための新しいベンチマークであるGePBenchを紹介する。
評価の結果,現在最先端のMLLMは幾何学的知覚タスクに重大な欠陥があることが明らかとなった。
GePBenchデータを用いてトレーニングしたモデルは、幅広いベンチマークタスクにおいて大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 34.647839550142834
- License:
- Abstract: Multimodal large language models (MLLMs) have made significant progress in integrating visual and linguistic understanding. Existing benchmarks typically focus on high-level semantic capabilities, such as scene understanding and visual reasoning, but often overlook a crucial, foundational ability: geometric perception. Geometric perception involves understanding geometric shapes, structures, and spatial relationships, which are essential for supporting higher-level semantic tasks. Despite its importance, this capability remains underexplored in current MLLM research. To address this gap, we introduce GePBench, a novel benchmark designed to assess the geometric perception abilities of MLLMs. Our extensive evaluations reveal that current state-of-the-art MLLMs exhibit significant deficiencies in geometric perception tasks. Furthermore, we show that models trained with GePBench data demonstrate substantial improvements on a wide range of benchmark tasks, highlighting the critical role of geometric perception in enabling advanced multimodal applications. Our code and datasets will be publicly available.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、視覚的および言語的理解の統合において大きな進歩を遂げている。
既存のベンチマークは、シーン理解や視覚的推論のような高レベルのセマンティック機能に重点を置いているが、しばしば重要な基礎的能力である幾何学的知覚を見落としている。
幾何学的知覚は幾何学的形状、構造、空間的関係を理解することを含み、これはより高度な意味的タスクをサポートするのに不可欠である。
その重要性にもかかわらず、この能力は現在のMLLM研究において過小評価されている。
このギャップに対処するために,MLLMの幾何学的知覚能力を評価するための新しいベンチマークであるGePBenchを紹介する。
我々は,現在最先端のMLLMが幾何学的知覚タスクに重大な欠陥を呈していることを明らかにした。
さらに,GePBenchデータを用いてトレーニングしたモデルは,高度なマルチモーダルアプリケーションを実現する上での幾何学的知覚の重要な役割を明らかにするとともに,幅広いベンチマークタスクにおいて大幅に改善されていることを示す。
コードとデータセットは公開されます。
関連論文リスト
- Do Large Language Models Truly Understand Geometric Structures? [15.915781154075615]
我々はGeomRelデータセットを導入し、大規模言語モデルの幾何学的構造に対する理解を評価する。
我々は,LLMの幾何学的関係を識別する能力を高めるGeometry Chain-of-Thought (GeoCoT)法を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:52:34Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。
本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-03T03:59:03Z) - Navigate Complex Physical Worlds via Geometrically Constrained LLM [10.89488333922071]
本研究は幾何規則の集合を導入し,多層グラフとマルチエージェントシステムフレームワークに基づくワークフローを開発する。
この研究は、幾何学的制約問題を解くために、大規模なモデル知識にインスパイアされた遺伝的アルゴリズムを用いている。
論文 参考訳(メタデータ) (2024-10-23T03:14:07Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Reasoning in Large Language Models: A Geometric Perspective [4.2909314120969855]
我々は,その幾何学的理解を通して,大規模言語モデル(LLM)の推論能力について検討する。
LLMの表現力と自己認識グラフの密度の関連性を確立する。
論文 参考訳(メタデータ) (2024-07-02T21:39:53Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large
Language Models [28.819559978685806]
大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。
構成的幾何学的問題解決におけるLLMの能力について検討する。
我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの分野で直面している顕著な課題を明らかにします。
論文 参考訳(メタデータ) (2024-02-06T10:37:21Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。