論文の概要: BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks
- arxiv url: http://arxiv.org/abs/2412.04626v1
- Date: Thu, 05 Dec 2024 21:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:32.431861
- Title: BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks
- Title(参考訳): BigDocs: ドキュメントとコードタスクのマルチモーダルモデルをトレーニングするためのオープンで許容可能なデータセット
- Authors: Juan Rodriguez, Xiangru Jian, Siba Smarak Panigrahi, Tianyu Zhang, Aarash Feizi, Abhay Puri, Akshay Kalkunte, François Savard, Ahmed Masry, Shravan Nayak, Rabiul Awal, Mahsa Massoud, Amirhossein Abaskohi, Zichao Li, Suyuchen Wang, Pierre-André Noël, Mats Leon Richter, Saverio Vadacchino, Shubbam Agarwal, Sanket Biswas, Sara Shanian, Ying Zhang, Noah Bolger, Kurt MacDonald, Simon Fauvel, Sathwik Tejaswi, Srinivas Sunkara, Joao Monteiro, Krishnamurthy DJ Dvijotham, Torsten Scholak, Nicolas Chapados, Sepideh Kharagani, Sean Hughes, M. Özsu, Siva Reddy, Marco Pedersoli, Yoshua Bengio, Christopher Pal, Issam Laradji, Spandanna Gella, Perouz Taslakian, David Vazquez, Sai Rajeswar,
- Abstract要約: 我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
- 参考スコア(独自算出の注目度): 55.61185100263898
- License:
- Abstract: Multimodal AI has the potential to significantly enhance document-understanding tasks, such as processing receipts, understanding workflows, extracting data from documents, and summarizing reports. Code generation tasks that require long-structured outputs can also be enhanced by multimodality. Despite this, their use in commercial applications is often limited due to limited access to training data and restrictive licensing, which hinders open access. To address these limitations, we introduce BigDocs-7.5M, a high-quality, open-access dataset comprising 7.5 million multimodal documents across 30 tasks. We use an efficient data curation process to ensure our data is high-quality and license-permissive. Our process emphasizes accountability, responsibility, and transparency through filtering rules, traceable metadata, and careful content analysis. Additionally, we introduce BigDocs-Bench, a benchmark suite with 10 novel tasks where we create datasets that reflect real-world use cases involving reasoning over Graphical User Interfaces (GUI) and code generation from images. Our experiments show that training with BigDocs-Bench improves average performance up to 25.8% over closed-source GPT-4o in document reasoning and structured output tasks such as Screenshot2HTML or Image2Latex generation. Finally, human evaluations showed a preference for outputs from models trained on BigDocs over GPT-4o. This suggests that BigDocs can help both academics and the open-source community utilize and improve AI tools to enhance multimodal capabilities and document reasoning. The project is hosted at https://bigdocs.github.io .
- Abstract(参考訳): マルチモーダルAIは、レシートの処理、ワークフローの理解、ドキュメントからのデータの抽出、レポートの要約など、文書に基づくタスクを大幅に強化する可能性がある。
長い構造化された出力を必要とするコード生成タスクは、マルチモーダリティによって強化することもできる。
それにもかかわらず、商用アプリケーションでの使用は、トレーニングデータへのアクセスの制限と、オープンアクセスを妨げる制限的なライセンスのために制限されることが多い。
これらの制限に対処するため、30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
効率的なデータキュレーションプロセスを使用して、データの品質とライセンスの許容性を保証します。
我々のプロセスは、ルールのフィルタリング、トレーサブルなメタデータ、慎重なコンテンツ分析を通じて、説明責任、責任、透明性を強調します。
さらに、BigDocs-Benchという、グラフィカルユーザインタフェース(GUI)の推論や画像からのコード生成を含む現実世界のユースケースを反映したデータセットを作成する、10の新たなタスクを備えたベンチマークスイートも導入しています。
実験の結果,文書推論やScreenshot2HTML や Image2Latex 生成などの構造化出力タスクにおいて,BigDocs-Bench を用いたトレーニングにより,クローズドソース GPT-4o の平均性能が25.8%向上することがわかった。
最後に、人間の評価では、GPT-4oよりもBigDocsでトレーニングされたモデルからの出力が好まれていた。
これは、BigDocsが、学者とオープンソースコミュニティの両方がAIツールを使用して、マルチモーダル機能とドキュメント推論を強化するのに役立つことを示唆している。
このプロジェクトはhttps://bigdocs.github.ioにホストされている。
関連論文リスト
- M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。
効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-11-09T13:30:38Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Models [11.959445364035734]
エンタープライズデータの80%は非構造化ファイルに格納され、不均一なフォーマットに対応するデータレイクに格納される。
多様な異種文書からマルチモーダル情報を抽出する新しいフレームワークであるDocs2KGを紹介する。
Docs2KGは、抽出されたキー情報を表す統一知識グラフを生成する。
論文 参考訳(メタデータ) (2024-06-05T05:35:59Z) - Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning [0.0]
既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。
文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。
次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models [7.428236410246183]
われわれはContraDocを紹介した。ContraDocは、複数のドメインにまたがる長いドキュメントにおける自己コントラクションを研究する最初の人間アノテーション付きデータセットである。
我々は,このデータセット上でGPT3.5, GPT4, PaLM2, LLaMAv2の4つの最先端オープンソースおよび商用LLMの現在の機能を分析する。
GPT4はこのタスクで最高のパフォーマンスを発揮し、人間より優れていますが、信頼できないことや、よりニュアンスとコンテキストを必要とする自己矛盾に苦労していることが分かりました。
論文 参考訳(メタデータ) (2023-11-15T18:23:17Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。