論文の概要: SoM-1K: A Thousand-Problem Benchmark Dataset for Strength of Materials
- arxiv url: http://arxiv.org/abs/2509.21079v1
- Date: Thu, 25 Sep 2025 12:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.899122
- Title: SoM-1K: A Thousand-Problem Benchmark Dataset for Strength of Materials
- Title(参考訳): SoM-1K:材料強度のベンチマークデータセット
- Authors: Qixin Wan, Zilong Wang, Jingwen Zhou, Wanting Wang, Ziheng Geng, Jiachen Liu, Ran Cao, Minghui Cheng, Lu Cheng,
- Abstract要約: 材料強度の問題に関する基礎モデルを評価するための,最初の大規模マルチモーダルベンチマークデータセットであるSoM-1Kを紹介する。
この研究は、エンジニアリングAIのための厳格なベンチマークを確立し、より堅牢なマルチモーダル推論機能を開発するための重要なニーズを強調している。
- 参考スコア(独自算出の注目度): 16.756001896133757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have shown remarkable capabilities in various domains, but their performance on complex, multimodal engineering problems remains largely unexplored. We introduce SoM-1K, the first large-scale multimodal benchmark dataset dedicated to evaluating foundation models on problems in the strength of materials (SoM). The dataset, which contains 1,065 annotated SoM problems, mirrors real-world engineering tasks by including both textual problem statements and schematic diagrams. Due to the limited capabilities of current foundation models in understanding complicated visual information, we propose a novel prompting strategy called Descriptions of Images (DoI), which provides rigorous expert-generated text descriptions of the visual diagrams as the context. We evaluate eight representative foundation models, including both large language models (LLMs) and vision language models (VLMs). Our results show that current foundation models struggle significantly with these engineering problems, with the best-performing model achieving only 56.6% accuracy. Interestingly, we found that LLMs, when provided with DoI, often outperform VLMs provided with visual diagrams. A detailed error analysis reveals that DoI plays a crucial role in mitigating visual misinterpretation errors, suggesting that accurate text-based descriptions can be more effective than direct image input for current foundation models. This work establishes a rigorous benchmark for engineering AI and highlights a critical need for developing more robust multimodal reasoning capabilities in foundation models, particularly in scientific and engineering contexts.
- Abstract(参考訳): ファンデーションモデルは様々な領域で顕著な能力を示してきたが、複雑なマルチモーダルエンジニアリング上の性能はいまだに未解明のままである。
SoM-1Kは,材料強度(SoM)の問題に関する基礎モデルを評価するための,最初の大規模マルチモーダルベンチマークデータセットである。
1,065の注釈付きSoM問題を含むデータセットは、テキスト問題ステートメントとスキーマ図の両方を含めることで、現実世界のエンジニアリングタスクを反映する。
複雑な視覚情報を理解する上で,現在の基礎モデルの能力が限られているため,視覚図の厳密な専門家による記述をコンテキストとして提供する「画像の記述(DoI)」と呼ばれる新たなプロンプト戦略を提案する。
我々は,大規模言語モデル (LLM) と視覚言語モデル (VLM) を含む8つの代表的な基礎モデルを評価する。
以上の結果から,現在の基礎モデルはこれらの工学的問題に大きく対応し,最高の性能のモデルでは56.6%の精度しか達成できていないことが示唆された。
興味深いことに、LDMがDoIで提供される場合、視覚図で提供されるVLMよりも優れていることが分かりました。
詳細な誤り解析により、DoIは視覚的誤読の軽減に重要な役割を担っていることが明らかとなり、現在の基礎モデルの直接画像入力よりも正確なテキストベースの記述の方が効果的であることが示唆された。
この研究は、エンジニアリングAIのための厳格なベンチマークを確立し、基礎モデル、特に科学と工学の文脈において、より堅牢なマルチモーダル推論機能を開発するための重要な必要性を強調している。
関連論文リスト
- When Language Overrules: Revealing Text Dominance in Multimodal Large Language Models [10.106066580331584]
我々は,画像,ビデオ,オーディオ,時系列,グラフなど多種多様なデータモダリティにまたがるテキスト優位性を,初めて体系的に調査した。
奥行き分析では,非テクスチュアルなモダリティにおける高度トークン冗長性からの注意の希釈,融合アーキテクチャ設計の影響,テキスト入力を暗黙的に好むタスクの定式化という,3つの根本原因を明らかにした。
論文 参考訳(メタデータ) (2025-08-14T11:44:52Z) - Evaluating Multimodal Large Language Models on Educational Textbook Question Answering [3.4729524020941063]
MLLM(Multimodal large language model)は、視覚言語タスクにおいて成功したが、複雑な教材を論じる能力はほとんど試験されていない。
本研究は、CK12-QAデータセットを用いた教科書質問応答(TQA)タスクにおいて、LLaVA-1.5やLLaMA 3.2-Visionを含む最先端MLLMの最初の評価を行う。
論文 参考訳(メタデータ) (2025-06-18T19:31:35Z) - Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark [0.0]
フレーム問題とシンボルグラウンド問題(英語版)は歴史的に、伝統的なシンボルAIシステムでは解決不可能と見なされてきた。
本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
論文 参考訳(メタデータ) (2025-06-09T16:12:47Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Do We Need Domain-Specific Embedding Models? An Empirical Investigation [18.990655668481075]
FinMTEB(Massive Text Embedding Benchmark)の略であるFinMTEB(Massive Text Embedding Benchmark)を紹介する。
我々は、FinMTEB上での7つの最先端埋め込みモデルの性能評価を行い、MTEB上でのパフォーマンスと比較して顕著な性能低下を観測した。
我々の分析は、最先端の埋め込みモデルがドメイン固有の言語的および意味的なパターンを捉えるのに苦労しているという説得力のある証拠を提供する。
論文 参考訳(メタデータ) (2024-09-27T07:46:06Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。