論文の概要: GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling
- arxiv url: http://arxiv.org/abs/2505.00063v1
- Date: Wed, 30 Apr 2025 15:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.130586
- Title: GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling
- Title(参考訳): GDI-Bench: ビジョンと推論による汎用ドキュメントインテリジェンスのためのベンチマーク
- Authors: Siqi Li, Yufan Shen, Xiangnan Chen, Jiayi Chen, Hengwei Ju, Haodong Duan, Song Mao, Hongbin Zhou, Bo Zhang, Pinlong Cai, Licheng Wen, Botian Shi, Yong Liu, Xinyu Cai, Yu Qiao,
- Abstract要約: 汎用ドキュメントインテリジェンスベンチマークは、9つの主要なシナリオと19のドキュメント固有のタスクにまたがる1.9kのイメージを備えている。
視覚的な複雑さと推論の複雑さを分離することにより、GDI-Benchは、困難によるパフォーマンス評価を可能にするタスクをグレードする。
本稿では,教師付き微調整過程における破滅的忘れの問題を緩和するGDIモデルを提案する。
- 参考スコア(独自算出の注目度): 34.697209279932686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of multimodal large language models (MLLMs) has profoundly impacted the document domain, creating a wide array of application scenarios. This progress highlights the need for a comprehensive benchmark to evaluate these models' capabilities across various document-specific tasks. However, existing benchmarks often fail to locate specific model weaknesses or guide systematic improvements. To bridge this gap, we introduce a General Document Intelligence Benchmark (GDI-Bench), featuring 1.9k images across 9 key scenarios and 19 document-specific tasks. By decoupling visual complexity and reasoning complexity, the GDI-Bench structures graded tasks that allow performance assessment by difficulty, aiding in model weakness identification and optimization guidance. We evaluate the GDI-Bench on various open-source and closed-source models, conducting decoupled analyses in the visual and reasoning domains. For instance, the GPT-4o model excels in reasoning tasks but exhibits limitations in visual capabilities. To address the diverse tasks and domains in the GDI-Bench, we propose a GDI Model that mitigates the issue of catastrophic forgetting during the supervised fine-tuning (SFT) process through a intelligence-preserving training strategy. Our model achieves state-of-the-art performance on previous benchmarks and the GDI-Bench. Both our benchmark and model will be open source.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)の急速な進歩は、ドキュメントドメインに大きな影響を与え、幅広いアプリケーションシナリオを生み出しました。
この進歩は、様々なドキュメント固有のタスクでこれらのモデルの能力を評価するための包括的なベンチマークの必要性を強調している。
しかし、既存のベンチマークでは、特定のモデルの弱点を見つけられなかったり、体系的な改善を導いたりすることが多い。
このギャップを埋めるために、9つの主要なシナリオと19のドキュメント固有のタスクにわたる1.9kイメージを備えたGeneral Document Intelligence Benchmark(GDI-Bench)を導入する。
視覚的な複雑さと推論の複雑さを分離することにより、GDI-Benchは難易度によるパフォーマンスアセスメントを可能にし、モデルの弱点の識別と最適化のガイダンスを支援するタスクを段階的に構成する。
我々は,GDI-Benchを様々なオープンソースおよびクローズドソースモデル上で評価し,視覚領域と推論領域における疎結合解析を行った。
例えば、GPT-4oモデルは推論タスクに優れるが、視覚能力に制限がある。
GDI-Benchにおける多様なタスクやドメインに対処するため、情報保存学習戦略を通じて、教師付き微調整(SFT)プロセスにおける破滅的な忘れの問題を緩和するGDIモデルを提案する。
本モデルは,従来のベンチマークとGDI-Bench上での最先端性能を実現する。
ベンチマークとモデルの両方がオープンソースになります。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - Global Benchmark Database [0.0]
Global Benchmark Database(GBD)は、ベンチマークインスタンスとそのメタデータのプロビジョニングと持続的メンテナンスのための総合的なツールスイートである。
本稿では,GBDのデータモデルとそのインタフェースについて紹介し,それらとのインタラクションの例を示す。
論文 参考訳(メタデータ) (2024-05-16T12:29:12Z) - MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis [22.27724733876081]
本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。
我々は、MIGタスクの課題に対処するために、MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。
MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。
論文 参考訳(メタデータ) (2024-02-08T04:52:36Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation [5.3558730908641525]
本稿では,ATG のタスクを標準化するためのベンチマークデータセット CAMERA を提案する。
我々の実験は、現状と残りの課題を示している。
また、ATGの既存の指標とLLMに基づく評価器が人間の評価とどのように一致しているかについても検討する。
論文 参考訳(メタデータ) (2023-09-21T12:51:24Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。