論文の概要: D-SCoRE: Document-Centric Segmentation and CoT Reasoning with Structured Export for QA-CoT Data Generation
- arxiv url: http://arxiv.org/abs/2508.01309v1
- Date: Sat, 02 Aug 2025 10:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.812821
- Title: D-SCoRE: Document-Centric Segmentation and CoT Reasoning with Structured Export for QA-CoT Data Generation
- Title(参考訳): D-SCoRE:QA-CoTデータ生成のための構造化輸出によるドキュメント中心セグメンテーションとCoT推論
- Authors: Weibo Zhou, Lingbo Li, Shangsong Liang,
- Abstract要約: D-SCoREはトレーニング不要のパイプラインで、任意のテキストソースから高品質なQAデータセットを生成する。
D-SCoREは、100-200ワードテキストあたりの4オプションの反ファクト素材を持つ6つのQA-CoTペアを90秒で生成する。
そのシンプルさとスケーラビリティにより、効率的なQA生成とドメイン間の高性能な微調整が可能になる。
- 参考スコア(独自算出の注目度): 12.271220269415878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity and high cost of high-quality question-answering (QA) datasets hinder supervised fine-tuning (SFT) for domain-specific large language models (LLMs). To address this, we introduce D-SCoRE, a training-free pipeline that utilizes LLMs and prompt engineering to produce diverse, high-quality QA datasets from arbitrary textual sources. D-SCoRE integrates $\textbf{D}$ocument-centric processing, $\textbf{S}$egmentation, $\textbf{Co}$T $\textbf{R}$easoning, and structured $\textbf{E}$xport to generate QA-COT datasets tailored for domain-aware SFT. Multi-dimensional control mechanisms, such as semantic role transformation, question type balancing, and counterfactual materials, enhance diversity and relevance, overcoming limitations of existing QA generation. LLMs fine-tuned on D-SCoRE-generated QA datasets, and human-annotated QA datasets (SQuAD, Covid-QA) are evaluated on SQuADShifts and Covid-QA test sets, with D-SCoRE outperforming across most domains. D-SCoRE generates six QA-CoT pairs with four-option counterfactual materials per 100-200-word text in 90 seconds using an 8B LLM on consumer-grade hardware. Its simplicity and scalability enable efficient QA generation and high-performance fine-tuning across domains.
- Abstract(参考訳): 高品質な質問応答(QA)データセットの不足と高コストは、ドメイン固有の大規模言語モデル(LLM)の教師付き微調整(SFT)を妨げる。
そこで本研究では,LLMを利用したトレーニングフリーパイプラインであるD-SCoREを導入し,任意のテキストソースから多種多様な高品質QAデータセットを生成する。
D-SCoRE は $\textbf{D}$ocument-centric processing, $\textbf{S}$egmentation, $\textbf{Co}$T $\textbf{R}$easoning と $\textbf{E}$xport を統合し、ドメイン認識 SFT に適した QA-COT データセットを生成する。
セマンティック・ロール・トランスフォーメーション、質問型バランス、反ファクト・マテリアルといった多次元制御機構は、既存のQA生成の限界を克服し、多様性と妥当性を高めている。
D-SCoRE生成のQAデータセットを微調整したLLMと、SQuADShiftsとCovid-QAテストセット上で、D-SCoREが多くのドメインでパフォーマンスを向上する人間アノテーション付きQAデータセット(SQuAD、Covid-QA)を評価した。
D-SCoREは、コンシューマグレードのハードウェア上で8B LLMを使用して、100-200ワードテキストあたりの4オプションの反ファクト素材を持つ6つのQA-CoTペアを90秒で生成する。
そのシンプルさとスケーラビリティにより、効率的なQA生成とドメイン間の高性能な微調整が可能になる。
関連論文リスト
- SustainableQA: A Comprehensive Question Answering Dataset for Corporate Sustainability and EU Taxonomy Reporting [16.86139440201837]
企業サステナビリティレポートと年次レポートから包括的なQAデータセットを生成するための,新しいデータセットとスケーラブルなパイプラインであるSustainableQAを紹介する。
195,000以上の多様なファクトイドと非ファクトイドのQAペアを持つSustainableQAは、高度な知識アシスタントの開発とベンチマークに有効なリソースである。
論文 参考訳(メタデータ) (2025-08-05T02:03:59Z) - Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension [8.489816179329832]
TQA-Benchは,大規模言語モデル(LLM)の複雑なQAタスクをリレーショナルデータ上で処理する能力を評価するために設計された,新しいマルチテーブルQAベンチマークである。
我々のベンチマークでは、現実世界のパブリックデータセットから得られた多様なリレーショナルデータベースインスタンスを組み込んでいます。
我々は、70億から700億のパラメータにまたがる、オープンソースとクローズドソースの両方のLLMを体系的に評価する。
論文 参考訳(メタデータ) (2024-11-29T06:48:13Z) - SEC-QA: A Systematic Evaluation Corpus for Financial QA [12.279234447220155]
既存のデータセットは、多くの場合、サイズ、コンテキスト、実用的なアプリケーションとの関連性によって制約される。
2つの重要な特徴を持つ継続的データセット生成フレームワークであるSEC-QAを提案する。
本稿では,複雑な情報検索と定量的推論パイプラインの実行能力を向上させるプログラム・オブ・思想に基づくQAシステムを提案する。
論文 参考訳(メタデータ) (2024-06-20T15:12:41Z) - FinTextQA: A Dataset for Long-form Financial Question Answering [10.1084081290893]
FinTextQAは金融における長文質問応答(LFQA)のための新しいデータセットである。
我々のデータセット上で最も効果的なシステム構成は、組込み器、レトリバー、リランカー、ジェネレータをAda2、Automated Merged Retrieval、Bge-Reranker-Base、Baichuan2-7Bとして設定することであった。
論文 参考訳(メタデータ) (2024-05-16T10:53:31Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Long-Tailed Question Answering in an Open World [46.67715607552547]
我々は、Long-Tailed QA (OLTQA) を、長い尾の分散データから学習するものとして定義する。
OLTQAモデルを提案し,頭,尾,目立たないタスク間の知識共有を促進する。
大規模なOLTQAデータセットでは、我々のモデルは一貫して最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-11T04:28:58Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Parameter-Efficient Abstractive Question Answering over Tables or Text [60.86457030988444]
QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。
メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。
パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
論文 参考訳(メタデータ) (2022-04-07T10:56:29Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。