論文の概要: SO-Bench: A Structural Output Evaluation of Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2511.21750v1
- Date: Sun, 23 Nov 2025 16:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.206537
- Title: SO-Bench: A Structural Output Evaluation of Multimodal LLMs
- Title(参考訳): SO-Bench:マルチモーダルLCMの構造出力評価
- Authors: Di Feng, Kaixin Ma, Feng Nan, Haofeng Chen, Bohan Zhai, David Griffiths, Mingfei Gao, Zhe Gan, Eshan Verma, Yinfei Yang, Zhifeng Chen, Afshin Dehghan,
- Abstract要約: マルチモーダルな大規模言語モデル (MLLM) は、現実のエージェント的な設定でますます多くデプロイされている。
テキスト領域における構造化生成の最近の進歩にもかかわらず、スキーマ基底情報抽出と視覚的入力に対する推論を体系的に評価するベンチマークはいまだ存在しない。
我々は、慎重に設計されたSO-Benchベンチマークを用いて、MLLMの視覚構造出力能力を総合的に研究する。
- 参考スコア(独自算出の注目度): 43.74273224757814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly deployed in real-world, agentic settings where outputs must not only be correct, but also conform to predefined data schemas. Despite recent progress in structured generation in textual domain, there is still no benchmark that systematically evaluates schema-grounded information extraction and reasoning over visual inputs. In this work, we conduct a comprehensive study of visual structural output capabilities for MLLMs with our carefully designed SO-Bench benchmark. Covering four visual domains, including UI screens, natural images, documents, and charts, SO-Bench is built from over 6.5K diverse JSON schemas and 1.8K curated image-schema pairs with human-verified quality. Benchmarking experiments on open-sourced and frontier proprietary models reveal persistent gaps in predicting accurate, schema compliant outputs, highlighting the need for better multimodal structured reasoning. Beyond benchmarking, we further conduct training experiments to largely improve the model's structured output capability. We plan to make the benchmark available to the community.
- Abstract(参考訳): MLLM(Multimodal large language model)は、出力が正しいだけでなく、事前定義されたデータスキーマにも準拠するエージェント的な実世界において、ますます多くデプロイされている。
テキスト領域における構造化生成の最近の進歩にもかかわらず、スキーマ基底情報抽出と視覚的入力に対する推論を体系的に評価するベンチマークはいまだ存在しない。
本研究では, MLLMの視覚構造出力機能について, 慎重に設計したSO-Benchベンチマークを用いて包括的に検討する。
UI画面、自然画像、ドキュメント、チャートを含む4つのビジュアルドメインをカバーすることで、SO-Benchは6.5K以上の多様なJSONスキーマと、人間の検証された品質を備えた1.8Kキュレートされたイメージスキーマペアで構成されている。
オープンソースおよびフロンティアプロプライエタリモデルのベンチマーク実験は、正確でスキーマに準拠したアウトプットを予測する上で、永続的なギャップを明らかにし、より優れたマルチモーダルな構造化推論の必要性を強調している。
ベンチマークの他に、モデルの構造化出力能力を大幅に改善するためのトレーニング実験も行います。
ベンチマークをコミュニティに公開する予定です。
関連論文リスト
- LLMStructBench: Benchmarking Large Language Model Structured Data Extraction [1.338174941551702]
LLM(Large Language Models)の評価のための新しいベンチマークを提案する。
私たちのオープンデータセットは、さまざまな複雑さの多様な手作業による解析シナリオで構成されています。
モデルサイズなどの標準属性よりも適切なプロンプト戦略を選択することが重要であることを示す。
論文 参考訳(メタデータ) (2026-02-16T13:37:58Z) - Instruction-Tuning Open-Weight Language Models for BPMN Model Generation [0.0]
命令チューニングによって適応されたオープンウェイトな大規模言語モデルが高品質なBPMNプロセスモデルを生成することができるかどうかを検討する。
InstruBPMは、ペア化されたテキストダイアグラムデータを作成し、オープンソースの大規模言語モデルをチューニングする再現可能なアプローチである。
調整済みモデルと未調整のオープンウェイトベースラインと、一貫したプロンプトレジームの下で強力なプロプライエタリモデルを比較した。
論文 参考訳(メタデータ) (2025-12-12T22:07:51Z) - Logics-Parsing Technical Report [8.982345117231661]
我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。
本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。
LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
論文 参考訳(メタデータ) (2025-09-24T04:54:37Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。