Fugu-MT 論文翻訳(概要): PP-DocBee2: Improved Baselines with Efficient Data for Multimodal Document Understanding

論文の概要: PP-DocBee2: Improved Baselines with Efficient Data for Multimodal Document Understanding

arxiv url: http://arxiv.org/abs/2506.18023v2
Date: Wed, 25 Jun 2025 02:40:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-26 12:28:29.361528
Title: PP-DocBee2: Improved Baselines with Efficient Data for Multimodal Document Understanding
Title（参考訳）: PP-DocBee2:マルチモーダル文書理解のための効率的なデータによるベースラインの改善
Authors: Kui Huang, Xinrong Chen, Wenyu Lv, Jincheng Liao, Guanzhong Wang, Yi Liu,
Abstract要約: PP-DocBee2は、マルチモーダル文書理解を強化するために設計されたPP-DocBeeの高度なバージョンである。 PP-DocBee2は、大規模なマルチモーダルモデルアーキテクチャに基づいて構築され、主要な技術的改善を通じて、前者の限界に対処する。これらの拡張により、中国のビジネス文書の内部ベンチマークのパフォーマンスが11.4%向上し、バニラバージョンに対する推論遅延が73.0%削減された。
参考スコア（独自算出の注目度）: 2.778335169230448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This report introduces PP-DocBee2, an advanced version of the PP-DocBee, designed to enhance multimodal document understanding. Built on a large multimodal model architecture, PP-DocBee2 addresses the limitations of its predecessor through key technological improvements, including enhanced synthetic data quality, improved visual feature fusion strategy, and optimized inference methodologies. These enhancements yield an $11.4\%$ performance boost on internal benchmarks for Chinese business documents, and reduce inference latency by $73.0\%$ to the vanilla version. A key innovation of our work is a data quality optimization strategy for multimodal document tasks. By employing a large-scale multimodal pre-trained model to evaluate data, we apply a novel statistical criterion to filter outliers, ensuring high-quality training data. Inspired by insights into underutilized intermediate features in multimodal models, we enhance the ViT representational capacity by decomposing it into layers and applying a novel feature fusion strategy to improve complex reasoning. The source code and pre-trained model are available at \href{https://github.com/PaddlePaddle/PaddleMIX}{https://github.com/PaddlePaddle/PaddleMIX}.
Abstract（参考訳）: 本稿では,PP-DocBeeの高度なバージョンであるPP-DocBee2について紹介する。 PP-DocBee2は、大規模なマルチモーダルモデルアーキテクチャに基づいて構築され、合成データ品質の向上、視覚的特徴融合戦略の改善、最適化推論手法など、前者の限界に対処する。これらの拡張により、中国のビジネスドキュメントの内部ベンチマークのパフォーマンスが11.4\%向上し、バニラバージョンに対する推論遅延が73.0\%削減された。私たちの仕事の重要な革新は、マルチモーダル文書タスクのデータ品質最適化戦略です。大規模マルチモーダル事前学習モデルを用いてデータ評価を行い, 外れ値のフィルタリングに新しい統計的基準を適用し, 高品質なトレーニングデータを確保する。マルチモーダルモデルにおける未利用中間機能に対する洞察にインスパイアされ、層に分解し、複雑な推論を改善するために新しい特徴融合戦略を適用することにより、ViT表現能力を高める。ソースコードと事前トレーニングされたモデルは、 \href{https://github.com/PaddlePaddle/PaddleMIX}{https://github.com/PaddlePaddle/PaddleMIX} で入手できる。

関連論文リスト

PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks [10.214889337096773]
PP-DocBeeは、エンドツーエンドの文書イメージ理解のために設計された、新しいマルチモーダルな大規模言語モデルである。我々は、モデル一般化を改善するために多様なデータセットを構築するシナリオを文書化するのに適したデータ合成戦略を開発する。我々は、動的比例サンプリング、データ前処理、OCR後処理戦略など、いくつかのトレーニング手法を適用している。
論文参考訳（メタデータ） (2025-03-06T03:43:21Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
A Multi-Document Coverage Reward for RELAXed Multi-Document Summarization [11.02198476454955]
本稿では,MDSの基準値と入力文書のカバレッジのバランスをとる報酬を付与したMDSベースラインの微調整を提案する。 Multi-NewsおよびWCEP MDSデータセットに対する実験結果から、ベースライン上での平均ROUGEスコアが+0.95pp、METEORスコアが+3.17ppと大幅に改善された。
論文参考訳（メタデータ） (2022-03-06T07:33:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。