論文の概要: GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling
- arxiv url: http://arxiv.org/abs/2505.00063v2
- Date: Thu, 22 May 2025 05:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:22.234828
- Title: GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling
- Title(参考訳): GDI-Bench: ビジョンと推論による汎用ドキュメントインテリジェンスのためのベンチマーク
- Authors: Siqi Li, Yufan Shen, Xiangnan Chen, Jiayi Chen, Hengwei Ju, Haodong Duan, Song Mao, Hongbin Zhou, Bo Zhang, Bin Fu, Pinlong Cai, Licheng Wen, Botian Shi, Yong Liu, Xinyu Cai, Yu Qiao,
- Abstract要約: 汎用ドキュメントインテリジェンスベンチマークは、9つの主要なシナリオと19のドキュメント固有のタスクにわたる2.3kイメージを備えている。
我々はGDI-Bench上で様々なオープンソースおよびクローズドソースモデルを評価し,視覚領域と推論領域の分離解析を行った。
本モデルは,従来のベンチマークとGDI-Bench上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 36.8157293625143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of multimodal large language models (MLLMs) has profoundly impacted the document domain, creating a wide array of application scenarios. This progress highlights the need for a comprehensive benchmark to evaluate these models' capabilities across various document-specific tasks. However, existing benchmarks often fail to locate specific model weaknesses or guide systematic improvements. To bridge this gap, we introduce a General Document Intelligence Benchmark (GDI-Bench), featuring 2.3k images across 9 key scenarios and 19 document-specific tasks. By decoupling visual complexity and reasoning complexity, the GDI-Bench structures graded tasks that allow performance assessment by difficulty, aiding in model weakness identification and optimization guidance. We evaluate various open-source and closed-source models on GDI-Bench, conducting decoupled analyses in the visual and reasoning domains, revealing their strengths and weaknesses. To address the diverse tasks and domains in the GDI-Bench, we propose a GDI-Model that mitigates catastrophic forgetting during the supervised fine-tuning (SFT) process through an intelligence-preserving training strategy, thereby reinforcing the inherent weaknesses of the base model. Our model achieves state-of-the-art performance on previous benchmarks and the GDI-Bench. Both our benchmark and models are or will be open-sourced on https://huggingface.co/GDIBench.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)の急速な進歩は、ドキュメントドメインに大きな影響を与え、幅広いアプリケーションシナリオを生み出しました。
この進歩は、様々なドキュメント固有のタスクでこれらのモデルの能力を評価するための包括的なベンチマークの必要性を強調している。
しかし、既存のベンチマークでは、特定のモデルの弱点を見つけられなかったり、体系的な改善を導いたりすることが多い。
このギャップを埋めるために、9つの主要なシナリオと19のドキュメント固有のタスクにわたる2.3kイメージを備えたGeneral Document Intelligence Benchmark(GDI-Bench)を導入する。
視覚的な複雑さと推論の複雑さを分離することにより、GDI-Benchは難易度によるパフォーマンスアセスメントを可能にし、モデルの弱点の識別と最適化のガイダンスを支援するタスクを段階的に構成する。
我々は、GDI-Bench上で様々なオープンソースおよびクローズドソースモデルを評価し、視覚領域と推論領域の分離分析を行い、その強みと弱点を明らかにした。
GDI-Benchにおける多様なタスクやドメインに対処するため,教師付き微調整(SFT)プロセスにおいて,インテリジェンス保存トレーニング戦略を通じて破滅的な忘れを軽減し,ベースモデル固有の弱点を補強するGDI-Modelを提案する。
本モデルは,従来のベンチマークとGDI-Bench上での最先端性能を実現する。
ベンチマークとモデルの両方がhttps://huggingface.co/GDIBench.comでオープンソース化されます。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - Global Benchmark Database [0.0]
Global Benchmark Database(GBD)は、ベンチマークインスタンスとそのメタデータのプロビジョニングと持続的メンテナンスのための総合的なツールスイートである。
本稿では,GBDのデータモデルとそのインタフェースについて紹介し,それらとのインタラクションの例を示す。
論文 参考訳(メタデータ) (2024-05-16T12:29:12Z) - MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis [22.27724733876081]
本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。
我々は、MIGタスクの課題に対処するために、MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。
MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。
論文 参考訳(メタデータ) (2024-02-08T04:52:36Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation [5.3558730908641525]
本稿では,ATG のタスクを標準化するためのベンチマークデータセット CAMERA を提案する。
我々の実験は、現状と残りの課題を示している。
また、ATGの既存の指標とLLMに基づく評価器が人間の評価とどのように一致しているかについても検討する。
論文 参考訳(メタデータ) (2023-09-21T12:51:24Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。