論文の概要: PlotChain: Deterministic Checkpointed Evaluation of Multimodal LLMs on Engineering Plot Reading
- arxiv url: http://arxiv.org/abs/2602.13232v1
- Date: Thu, 29 Jan 2026 06:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.568647
- Title: PlotChain: Deterministic Checkpointed Evaluation of Multimodal LLMs on Engineering Plot Reading
- Title(参考訳): PlotChain: エンジニアリングプロット読解におけるマルチモーダルLCMの決定論的チェックポイント評価
- Authors: Mayank Ravishankara,
- Abstract要約: PlotChainは、大規模言語モデル(MLLM)を評価するための決定論的、ジェネレータベースのベンチマークである。
PlotChainには15のプロットファミリーがあり、450のプロット(家族当たり30)がある。
上位モデルは80.42%(Gemini 2.5 Pro)、79.84%(GPT-4.1)、78.21%(Claude Sonnet 4.5)、GPT-4oは61.59%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PlotChain, a deterministic, generator-based benchmark for evaluating multimodal large language models (MLLMs) on engineering plot reading-recovering quantitative values from classic plots (e.g., Bode/FFT, step response, stress-strain, pump curves) rather than OCR-only extraction or free-form captioning. PlotChain contains 15 plot families with 450 rendered plots (30 per family), where every item is produced from known parameters and paired with exact ground truth computed directly from the generating process. A central contribution is checkpoint-based diagnostic evaluation: in addition to final targets, each item includes intermediate 'cp_' fields that isolate sub-skills (e.g., reading cutoff frequency or peak magnitude) and enable failure localization within a plot family. We evaluate four state-of-the-art MLLMs under a standardized, deterministic protocol (temperature = 0 and a strict JSON-only numeric output schema) and score predictions using per-field tolerances designed to reflect human plot-reading precision. Under the 'plotread' tolerance policy, the top models achieve 80.42% (Gemini 2.5 Pro), 79.84% (GPT-4.1), and 78.21% (Claude Sonnet 4.5) overall field-level pass rates, while GPT-4o trails at 61.59%. Despite strong performance on many families, frequency-domain tasks remain brittle: bandpass response stays low (<= 23%), and FFT spectrum remains challenging. We release the generator, dataset, raw model outputs, scoring code, and manifests with checksums to support fully reproducible runs and retrospective rescoring under alternative tolerance policies.
- Abstract(参考訳): 我々は,OCRのみ抽出や自由形式キャプションではなく,古典的プロット(例えば Bode/FFT, ステップ応答, 応力-ひずみ, ポンプ曲線)から定量値を読み取るエンジニアリングプロットのMLLM(Multimodal large language model)を評価するための決定論的・ジェネレータベースのベンチマークであるPlotChainを提案する。
PlotChainには、450の描画プロット(30家族)を持つ15のプロットファミリーが含まれており、すべてのアイテムは既知のパラメータから生成され、生成プロセスから直接計算された正確な基底真理とペアリングされる。
最終目標に加えて、各項目は、サブスキル(例えば、カットオフ頻度やピークサイズ)を分離し、プロットファミリー内の障害ローカライズを可能にする中間の 'cp_' フィールドを含む。
我々は,標準的決定論的プロトコル(温度 = 0 と厳密な JSON のみの数値出力スキーマ)の下で4つの最先端MLLMを評価し,人間のプロット読影精度を反映したフィールド当たりの許容度を用いて予測値を評価する。
プロトレッド」の耐久ポリシーでは、上位モデルは80.42%(Gemini 2.5 Pro)、79.84%(GPT-4.1)、78.21%(Claude Sonnet 4.5)、GPT-4oは61.59%である。
周波数領域のタスクは不安定であり、帯域通過応答は低く(=23%)、FFTスペクトルは困難である。
我々は、ジェネレータ、データセット、生モデル出力、スコア付けコード、チェックサム付きのマニフェストをリリースし、完全に再現可能な実行と、代替の許容ポリシーの下でのレトロスペクティブのリコーディングをサポートします。
関連論文リスト
- Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - An analysis of the noise schedule for score-based generative models [7.180235086275926]
スコアベース生成モデル(SGM)は、目標からのノイズ摂動サンプルのみを用いてスコア関数を学習することにより、目標データ分布を推定することを目的としている。
近年の文献では、ターゲットと推定分布の誤差を評価し、KL(Kulback-Leibler)の発散とワッサーシュタイン距離を通じて生成品質を測ることに重点を置いている。
対象と推定分布のKL分散の上限を時間依存ノイズスケジュールによって明確に設定する。
論文 参考訳(メタデータ) (2024-02-07T08:24:35Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - QuTE: decentralized multiple testing on sensor networks with false discovery rate control [93.1040521878626]
本稿では、偽発見率(FDR)の証明可能な保証を備えたグラフ上での分散多重仮説検定法を設計する。
異なるエージェントが無向グラフのノードに存在し、各エージェントはそのノードに局所的な1つ以上の仮説に対応するp値を持つ。
各エージェントは、グラフ全体の大域的FDRが予め定義されたレベルで制御されなければならないという共同目的のもと、隣人とのみ通信することで、それぞれのローカル仮説の1つ以上の拒絶を個別に決めなければならない。
論文 参考訳(メタデータ) (2022-10-09T19:48:39Z) - Content Popularity Prediction Based on Quantized Federated Bayesian
Learning in Fog Radio Access Networks [76.16527095195893]
キャッシュ可能なフォグラジオアクセスネットワーク(F-RAN)におけるコンテンツ人気予測問題について検討する。
そこで本研究では,コンテンツ要求パターンをモデル化するためのガウス過程に基づく回帰器を提案する。
我々はベイズ学習を利用してモデルパラメータを訓練する。
論文 参考訳(メタデータ) (2022-06-23T03:05:12Z) - $\texttt{FedBC}$: Calibrating Global and Local Models via Federated
Learning Beyond Consensus [66.62731854746856]
フェデレートラーニング(FL)では、デバイス全体にわたるモデル更新の集約を通じて、グローバルモデルを協調的に学習する目的は、ローカル情報を通じたパーソナライズという目標に反対する傾向にある。
本研究では,このトレードオフを多基準最適化により定量的にキャリブレーションする。
私たちは、$texttFedBC$が、スイートデータセット間でグローバルおよびローカルモデルのテスト精度のメトリクスのバランスをとることを実証しています。
論文 参考訳(メタデータ) (2022-06-22T02:42:04Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Continuous Release of Data Streams under both Centralized and Local
Differential Privacy [30.998501044718548]
差分プライバシ(DP)を満たす実数値データストリームの公開問題について検討する。
最大の課題は、最大値が非常に大きいことだ。
本研究では,実用目標をよく近似する品質関数を備えた指数メカニズムを用いた手法を開発した。
論文 参考訳(メタデータ) (2020-05-24T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。