論文の概要: Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild
- arxiv url: http://arxiv.org/abs/2603.04205v1
- Date: Wed, 04 Mar 2026 15:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.38553
- Title: Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild
- Title(参考訳): Real5-OmniDocBench: 野生のロバスト文書解析のためのフルスケール物理再構成ベンチマーク
- Authors: Changda Zhou, Ziyue Gao, Xueqing Wang, Tingquan Gao, Cheng Cui, Jing Tang, Yi Liu,
- Abstract要約: 我々は,OmniDocBench v1.5の完全な1対1物理再構成を行う最初のベンチマークであるReal5-OmniDocBenchを紹介した(画像1,355枚)。
デジタル対応の欠如や部分的サンプリングの欠如といった以前のベンチマークとは違って,完全な地下構造マッピングは,性能劣化の厳密な要因による帰結を初めて実現した。
- 参考スコア(独自算出の注目度): 8.042156924293213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language Models (VLMs) achieve near-perfect scores on digital document benchmarks like OmniDocBench, their performance in the unpredictable physical world remains largely unknown due to the lack of controlled yet realistic evaluations. We introduce Real5-OmniDocBench, the first benchmark that performs a full-scale, one-to-one physical reconstruction of the entire OmniDocBench v1.5 (1,355 images) across five critical real-world scenarios: Scanning, Warping, Screen-Photography, Illumination, and Skew. Unlike prior benchmark that either lack digital correspondence or employ partial sampling, our complete ground-truth mapping enables, for the first time, rigorous factor-wise attribution of performance degradation-allowing us to pinpoint whether failures stem from geometric distortions, optical artifacts, or model limitations. Our benchmark establishes a challenging new standard for the community, demonstrating that the 'reality gap' in document parsing is far from closed, and provides a diagnostic tool to guide the development of truly resilient document intelligence.
- Abstract(参考訳): VLM(Vision-Language Models)はOmniDocBenchのようなデジタル文書のベンチマークでほぼ完璧なスコアを得られるが、予測不可能な物理世界における彼らのパフォーマンスは、制御されながら現実的な評価がないために、ほとんど不明である。
Real5-OmniDocBenchは,OmniDocBench v1.5 (1,355イメージ)全体を,スキャン,ウォーピング,スクリーンフォトグラフィ,イルミネーション,スキューの5つの重要な実世界のシナリオに対して,フルスケールで1対1の物理的再構築を行う最初のベンチマークである。
デジタル対応や部分的なサンプリングを欠いた以前のベンチマークとは異なり、我々の完全な地平線マッピングは、初めて、パフォーマンス劣化の厳密な要因による帰結を可能とし、失敗が幾何学的歪み、光学的アーティファクト、またはモデル制限に由来するかどうかを特定できるようにする。
我々のベンチマークは、文書解析における「現実のギャップ」が決してクローズドではないことを証明し、真にレジリエントなドキュメントインテリジェンスの開発を導くための診断ツールを提供することによって、コミュニティにとって挑戦的な新しい標準を確立します。
関連論文リスト
- RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations [12.753436440584409]
VisRAG(Retrieval-Augmented Generation)は、視覚言語モデル(VLM)を活用して、関連する視覚文書を共同で検索し、マルチモーダルな証拠に基づいて根拠付き回答を生成する。
既存のVisRAGモデルは、視覚入力がぼやけ、ノイズ、低光、シャドーなどの歪みに悩まされるときに性能が低下する。
因果誘導型デュアルパスフレームワークであるRobustVisRAGを導入し,効率とゼロショットの一般化を保ちながら,VisRAGの堅牢性を向上させる。
論文 参考訳(メタデータ) (2026-02-25T15:27:57Z) - SynthForensics: A Multi-Generator Benchmark for Detecting Synthetic Video Deepfakes [5.341795386333291]
われわれはSynthForensicsを導入し、人工的なビデオディープフェイクを検知する最初の人間中心のベンチマークを私たちの知る限りで紹介する。
ベンチマークは、アーキテクチャ的に異なる、最先端のオープンソースT2Vモデルの6,815のユニークなビデオで構成されている。
AUCの平均的な性能低下は29.19%で、いくつかの手法はランダムな確率よりも悪く、上位モデルは重い圧縮の下で30ポイント以上低下する。
論文 参考訳(メタデータ) (2026-02-04T16:47:37Z) - NeXT-IMDL: Build Benchmark for NeXT-Generation Image Manipulation Detection & Localization [67.84497768987023]
NeXT-IMDLは、現在の検出器の境界を調査するために設計された大規模な診断ベンチマークである。
NeXT-IMDLはAIGCベースの操作を、編集モデル、操作タイプ、コンテンツセマンティクス、偽造の4つの基本軸に沿って分類する。
11の代表的なモデルに対する我々の実験では、これらのモデルが元の設定でうまく機能する一方で、システム障害と大幅な性能低下を示しています。
論文 参考訳(メタデータ) (2025-12-29T11:09:35Z) - MMGR: Multi-Modal Generative Reasoning [97.44203203196481]
本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。
MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。
主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
論文 参考訳(メタデータ) (2025-12-16T18:58:04Z) - SPHINX: A Synthetic Environment for Visual Perception and Reasoning [4.245676108236535]
視覚知覚と推論のための合成環境であるSphinxを提案する。
モチーフ、タイル、チャート、アイコン、幾何学的プリミティブを使ってパズルを生成する。
このベンチマークでは、対称性検出、幾何学変換、空間推論、チャート解釈、シーケンス予測にまたがる25のタスクタイプがカバーされている。
論文 参考訳(メタデータ) (2025-11-25T20:00:47Z) - TADoc: Robust Time-Aware Document Image Dewarping [4.080803969466669]
デジタルエコノミーとオンラインワークの台頭により、文書画像のデウォープがますます重要になっている。
我々はこのタスクを再構築し、一連の中間状態を含む動的なプロセスとして初めてモデル化する。
文書画像の幾何学的歪みに対処するために,TADocと呼ばれる軽量なフレームワークを設計する。
論文 参考訳(メタデータ) (2025-08-09T13:55:55Z) - VTBench: Comprehensive Benchmark Suite Towards Real-World Virtual Try-on Models [3.7098434045639874]
VTBenchは、仮想画像試行を階層的、非絡み合いの次元に分解する階層型ベンチマークスイートである。
このベンチマークは仮想試行生成のための5つの重要な次元を含んでいる。
VTBenchは、すべてのテストセット、評価プロトコル、生成された結果、人間のアノテーションを含むオープンソースになる。
論文 参考訳(メタデータ) (2025-05-26T06:37:11Z) - WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? [64.62909376834601]
本稿では,自然環境における文書理解の評価に特化して設計されたWildDocについて紹介する。
WildDoc上での最先端MLLMの評価は、従来のベンチマークと比べて性能が大幅に低下し、モデルの頑健さが不十分であることを示す。
論文 参考訳(メタデータ) (2025-05-16T09:09:46Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。