論文の概要: PP-DocBee2: Improved Baselines with Efficient Data for Multimodal Document Understanding
- arxiv url: http://arxiv.org/abs/2506.18023v2
- Date: Wed, 25 Jun 2025 02:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 12:28:29.361528
- Title: PP-DocBee2: Improved Baselines with Efficient Data for Multimodal Document Understanding
- Title(参考訳): PP-DocBee2:マルチモーダル文書理解のための効率的なデータによるベースラインの改善
- Authors: Kui Huang, Xinrong Chen, Wenyu Lv, Jincheng Liao, Guanzhong Wang, Yi Liu,
- Abstract要約: PP-DocBee2は、マルチモーダル文書理解を強化するために設計されたPP-DocBeeの高度なバージョンである。
PP-DocBee2は、大規模なマルチモーダルモデルアーキテクチャに基づいて構築され、主要な技術的改善を通じて、前者の限界に対処する。
これらの拡張により、中国のビジネス文書の内部ベンチマークのパフォーマンスが11.4%向上し、バニラバージョンに対する推論遅延が73.0%削減された。
- 参考スコア(独自算出の注目度): 2.778335169230448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report introduces PP-DocBee2, an advanced version of the PP-DocBee, designed to enhance multimodal document understanding. Built on a large multimodal model architecture, PP-DocBee2 addresses the limitations of its predecessor through key technological improvements, including enhanced synthetic data quality, improved visual feature fusion strategy, and optimized inference methodologies. These enhancements yield an $11.4\%$ performance boost on internal benchmarks for Chinese business documents, and reduce inference latency by $73.0\%$ to the vanilla version. A key innovation of our work is a data quality optimization strategy for multimodal document tasks. By employing a large-scale multimodal pre-trained model to evaluate data, we apply a novel statistical criterion to filter outliers, ensuring high-quality training data. Inspired by insights into underutilized intermediate features in multimodal models, we enhance the ViT representational capacity by decomposing it into layers and applying a novel feature fusion strategy to improve complex reasoning. The source code and pre-trained model are available at \href{https://github.com/PaddlePaddle/PaddleMIX}{https://github.com/PaddlePaddle/PaddleMIX}.
- Abstract(参考訳): 本稿では,PP-DocBeeの高度なバージョンであるPP-DocBee2について紹介する。
PP-DocBee2は、大規模なマルチモーダルモデルアーキテクチャに基づいて構築され、合成データ品質の向上、視覚的特徴融合戦略の改善、最適化推論手法など、前者の限界に対処する。
これらの拡張により、中国のビジネスドキュメントの内部ベンチマークのパフォーマンスが11.4\%向上し、バニラバージョンに対する推論遅延が73.0\%削減された。
私たちの仕事の重要な革新は、マルチモーダル文書タスクのデータ品質最適化戦略です。
大規模マルチモーダル事前学習モデルを用いてデータ評価を行い, 外れ値のフィルタリングに新しい統計的基準を適用し, 高品質なトレーニングデータを確保する。
マルチモーダルモデルにおける未利用中間機能に対する洞察にインスパイアされ、層に分解し、複雑な推論を改善するために新しい特徴融合戦略を適用することにより、ViT表現能力を高める。
ソースコードと事前トレーニングされたモデルは、 \href{https://github.com/PaddlePaddle/PaddleMIX}{https://github.com/PaddlePaddle/PaddleMIX} で入手できる。
関連論文リスト
- PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks [10.214889337096773]
PP-DocBeeは、エンドツーエンドの文書イメージ理解のために設計された、新しいマルチモーダルな大規模言語モデルである。
我々は、モデル一般化を改善するために多様なデータセットを構築するシナリオを文書化するのに適したデータ合成戦略を開発する。
我々は、動的比例サンプリング、データ前処理、OCR後処理戦略など、いくつかのトレーニング手法を適用している。
論文 参考訳(メタデータ) (2025-03-06T03:43:21Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。