論文の概要: FlipVQA-Miner: Cross-Page Visual Question-Answer Mining from Textbooks
- arxiv url: http://arxiv.org/abs/2511.16216v1
- Date: Thu, 20 Nov 2025 10:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.574647
- Title: FlipVQA-Miner: Cross-Page Visual Question-Answer Mining from Textbooks
- Title(参考訳): FlipVQA-Miner: テキストからのクロスページビジュアル質問回答マイニング
- Authors: Zhen Hao Wong, Jingwen Deng, Hao Liang, Runming He, Chengyu Shen, Wentao Zhang,
- Abstract要約: 本稿では,教育文書から質問応答(QA)ペアを抽出する自動パイプラインを提案する。
実験により, 精度, 整列性, 低雑音性QA/VQAペアが得られた。
- 参考スコア(独自算出の注目度): 9.040003496268314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Large Language Models (LLMs) increasingly depends on high-quality supervised data, yet existing instruction-tuning and RL datasets remain costly to curate and often rely on synthetic samples that introduce hallucination and limited diversity. At the same time, textbooks and exercise materials contain abundant, high-quality human-authored Question-Answer(QA) content that remains underexploited due to the difficulty of transforming raw PDFs into AI-ready supervision. Although modern OCR and vision-language models can accurately parse document structure, their outputs lack the semantic alignment required for training. We propose an automated pipeline that extracts well-formed QA and visual-QA (VQA) pairs from educational documents by combining layout-aware OCR with LLM-based semantic parsing. Experiments across diverse document types show that the method produces accurate, aligned, and low-noise QA/VQA pairs. This approach enables scalable use of real-world educational content and provides a practical alternative to synthetic data generation for improving reasoning-oriented LLM training. All code and data-processing pipelines are open-sourced at https://github.com/OpenDCAI/DataFlow.
- Abstract(参考訳): LLM(Large Language Models)の開発は、高品質な教師付きデータにますます依存しているが、既存のインストラクションチューニングとRLデータセットは高価であり、幻覚と限られた多様性をもたらす合成サンプルに依存していることが多い。
同時に、教科書や演習資料には、生のPDFをAI対応の監督に転換することの難しさから未解決のままである、豊富な高品質な人間による質問回答(QA)コンテンツが含まれている。
現代のOCRや視覚言語モデルは文書構造を正確に解析できるが、その出力には訓練に必要な意味的アライメントが欠けている。
レイアウト認識型OCRとLLMに基づくセマンティックパーシングを組み合わせることで,教育文書から良好なQAと視覚的QA(VQA)ペアを抽出するパイプラインを提案する。
様々な文書タイプにわたる実験により、この手法は正確で整合性があり、低ノイズのQA/VQAペアを生成することが示された。
このアプローチは,実世界の教育コンテンツをスケーラブルに活用することを可能にし,推論指向LLMトレーニングを改善するための合成データ生成の実用的な代替手段を提供する。
すべてのコードとデータ処理パイプラインはhttps://github.com/OpenDCAI/DataFlow.comでオープンソース化されている。
関連論文リスト
- Automated Invoice Data Extraction: Using LLM and OCR [0.0]
この研究は、OCR、ディープラーニング、LLM(Large Language Models)、グラフ分析を組み合わせた総合人工知能(AI)プラットフォームを導入し、前例のない抽出品質と一貫性を実現する。
論文 参考訳(メタデータ) (2025-11-01T19:05:09Z) - Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks [41.75017840131367]
大規模言語モデル(LLM)は、コード生成において素晴らしい可能性を示しています。
800k近い命令推論コードテスト四重項を生成するスケーラブルな合成データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-27T10:54:25Z) - Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - Not All Documents Are What You Need for Extracting Instruction Tuning Data [35.52312217796995]
本研究では,多種多様な知識を含む Web コーパスから指導用チューニングデータを抽出する手法を提案する。
単純な解決策は、ドメイン固有のドキュメントを取得して、それらからすべてのQAペアを抽出することだが、これは2つの重要な課題に直面している。
EQUALは、文書の選択と高品質なQAペア抽出を交互に行う、効率的でスケーラブルなデータ抽出フレームワークである。
論文 参考訳(メタデータ) (2025-05-18T06:10:08Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。
ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。