論文の概要: SO-Bench: A Structural Output Evaluation of Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2511.21750v1
- Date: Sun, 23 Nov 2025 16:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.206537
- Title: SO-Bench: A Structural Output Evaluation of Multimodal LLMs
- Title(参考訳): SO-Bench:マルチモーダルLCMの構造出力評価
- Authors: Di Feng, Kaixin Ma, Feng Nan, Haofeng Chen, Bohan Zhai, David Griffiths, Mingfei Gao, Zhe Gan, Eshan Verma, Yinfei Yang, Zhifeng Chen, Afshin Dehghan,
- Abstract要約: マルチモーダルな大規模言語モデル (MLLM) は、現実のエージェント的な設定でますます多くデプロイされている。
テキスト領域における構造化生成の最近の進歩にもかかわらず、スキーマ基底情報抽出と視覚的入力に対する推論を体系的に評価するベンチマークはいまだ存在しない。
我々は、慎重に設計されたSO-Benchベンチマークを用いて、MLLMの視覚構造出力能力を総合的に研究する。
- 参考スコア(独自算出の注目度): 43.74273224757814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly deployed in real-world, agentic settings where outputs must not only be correct, but also conform to predefined data schemas. Despite recent progress in structured generation in textual domain, there is still no benchmark that systematically evaluates schema-grounded information extraction and reasoning over visual inputs. In this work, we conduct a comprehensive study of visual structural output capabilities for MLLMs with our carefully designed SO-Bench benchmark. Covering four visual domains, including UI screens, natural images, documents, and charts, SO-Bench is built from over 6.5K diverse JSON schemas and 1.8K curated image-schema pairs with human-verified quality. Benchmarking experiments on open-sourced and frontier proprietary models reveal persistent gaps in predicting accurate, schema compliant outputs, highlighting the need for better multimodal structured reasoning. Beyond benchmarking, we further conduct training experiments to largely improve the model's structured output capability. We plan to make the benchmark available to the community.
- Abstract(参考訳): MLLM(Multimodal large language model)は、出力が正しいだけでなく、事前定義されたデータスキーマにも準拠するエージェント的な実世界において、ますます多くデプロイされている。
テキスト領域における構造化生成の最近の進歩にもかかわらず、スキーマ基底情報抽出と視覚的入力に対する推論を体系的に評価するベンチマークはいまだ存在しない。
本研究では, MLLMの視覚構造出力機能について, 慎重に設計したSO-Benchベンチマークを用いて包括的に検討する。
UI画面、自然画像、ドキュメント、チャートを含む4つのビジュアルドメインをカバーすることで、SO-Benchは6.5K以上の多様なJSONスキーマと、人間の検証された品質を備えた1.8Kキュレートされたイメージスキーマペアで構成されている。
オープンソースおよびフロンティアプロプライエタリモデルのベンチマーク実験は、正確でスキーマに準拠したアウトプットを予測する上で、永続的なギャップを明らかにし、より優れたマルチモーダルな構造化推論の必要性を強調している。
ベンチマークの他に、モデルの構造化出力能力を大幅に改善するためのトレーニング実験も行います。
ベンチマークをコミュニティに公開する予定です。
関連論文リスト
- Logics-Parsing Technical Report [8.982345117231661]
我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。
本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。
LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
論文 参考訳(メタデータ) (2025-09-24T04:54:37Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。