Fugu-MT 論文翻訳(概要): UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents

論文の概要: UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents

arxiv url: http://arxiv.org/abs/2602.07038v1
Date: Tue, 03 Feb 2026 12:04:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.389348
Title: UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents
Title（参考訳）: UNIKIE-BENCH:ビジュアル文書におけるキー情報抽出のための大規模マルチモーダルモデルのベンチマーク
Authors: Yifan Ji, Zhipeng Xu, Zhenghao Liu, Zulong Chen, Qian Zhang, Zhibo Yang, Junyang Lin, Yu Gu, Ge Yu, Maosong Sun,
Abstract要約: 近年の大規模マルチモーダルモデルでは,文書画像から直接,エンドツーエンドのKIEを実行する可能性が高まっている。我々は,LMMのKIE能力を厳格に評価するベンチマークであるUNIKIE-BENCHを紹介する。 15の最先端のLMMの実験では、多様なスキーマ定義、ロングテールキーフィールド、複雑なレイアウトの下での大幅な性能低下が示されている。
参考スコア（独自算出の注目度）: 65.14244917622881
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Key Information Extraction (KIE) from real-world documents remains challenging due to substantial variations in layout structures, visual quality, and task-specific information requirements. Recent Large Multimodal Models (LMMs) have shown promising potential for performing end-to-end KIE directly from document images. To enable a comprehensive and systematic evaluation across realistic and diverse application scenarios, we introduce UNIKIE-BENCH, a unified benchmark designed to rigorously evaluate the KIE capabilities of LMMs. UNIKIE-BENCH consists of two complementary tracks: a constrained-category KIE track with scenario-predefined schemas that reflect practical application needs, and an open-category KIE track that extracts any key information that is explicitly present in the document. Experiments on 15 state-of-the-art LMMs reveal substantial performance degradation under diverse schema definitions, long-tail key fields, and complex layouts, along with pronounced performance disparities across different document types and scenarios. These findings underscore persistent challenges in grounding accuracy and layout-aware reasoning for LMM-based KIE. All codes and datasets are available at https://github.com/NEUIR/UNIKIE-BENCH.
Abstract（参考訳）: 実世界の文書からのキー情報抽出(KIE)は、レイアウト構造、視覚的品質、タスク固有の情報要求のかなりのバリエーションのため、依然として困難である。近年のLarge Multimodal Models (LMM) は文書画像から直接エンドツーエンドのKIEを実行する可能性を示している。現実的かつ多様なアプリケーションシナリオにおける包括的かつ体系的な評価を可能にするために,LMMのKIE能力を厳格に評価する統一ベンチマークであるUNIKIE-BENCHを導入する。 UNIKIE-BENCHは2つの補完的なトラックで構成されている: 現実的なアプリケーションニーズを反映したシナリオ事前定義されたスキーマを持つ制約付きカテゴリKIEトラックと、ドキュメントに明示的に存在する重要な情報を抽出するオープンカテゴリKIEトラックである。 15の最先端のLMMの実験では、さまざまなスキーマ定義、長いテールキーフィールド、複雑なレイアウト、および異なるドキュメントタイプやシナリオ間のパフォーマンスの相違が顕著に示される。これらの知見は,LMMに基づくKIEの精度とレイアウトを考慮した推論において,永続的な課題を浮き彫りにしている。すべてのコードとデータセットはhttps://github.com/NEUIR/UNIKIE-BENCHで公開されている。

関連論文リスト

Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
The Rarity Blind Spot: A Framework for Evaluating Statistical Reasoning in LLMs [14.21269233160436]
そこで我々はDFM(Distinctive Feature Mining)を導入し,グローバルな文脈では稀な10～40個の文書と表面的特徴をモデルで分析する手法を提案する。この設定は、検索ではなく統計的推論が重要となる候補選択や製品分化といった現実のシナリオを反映している。 DiFBenchを用いて、10の最先端LCMにおいて特徴的特徴マイニングを大規模に評価する。
論文参考訳（メタデータ） (2025-08-29T21:23:48Z)
MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。 MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。 MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文参考訳（メタデータ） (2025-07-25T03:58:07Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
DocMMIR: A Framework for Document Multi-modal Information Retrieval [35.41540195822167]
本稿では,新しいマルチモーダル文書検索フレームワークDocMMIRを紹介する。 450Kサンプルからなる大規模クロスドメインマルチモーダルベンチマークを構築した。その結果、ゼロショットベースラインに比べてMRR@10は+31%改善した。
論文参考訳（メタデータ） (2025-05-25T20:58:58Z)
REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文参考訳（メタデータ） (2025-02-17T22:10:47Z)
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文参考訳（メタデータ） (2024-12-14T06:24:55Z)
GraphRevisedIE: Multimodal Information Extraction with Graph-Revised Network [3.9472311338123287]
視覚的にリッチなドキュメント(VRD)から重要な情報を抽出することは、文書インテリジェンスにおいて難しい課題である。本稿では,VRDからテキスト,視覚,レイアウトなどのマルチモーダル機能を効果的に組み込む軽量モデルGraphIEを提案する。複数の実世界のデータセットに対する大規模な実験は、GraphIERevisedsが様々なレイアウトのドキュメントに一般化し、以前のKIEメソッドと同等またはより良いパフォーマンスを達成することを示している。
論文参考訳（メタデータ） (2024-10-02T01:29:49Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。