論文の概要: Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
- arxiv url: http://arxiv.org/abs/2409.08239v2
- Date: Wed, 20 Aug 2025 16:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.071633
- Title: Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
- Title(参考訳): Source2Synth: 実データソースに接地した合成データ生成とキュレーション
- Authors: Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli,
- Abstract要約: Source2 Synthは、実世界のデータソースに基盤を置く合成データ生成とキュレーションのためのスケーラブルなアプローチである。
提案手法は,その応答性に基づいて,低品質世代を廃棄することにより,データセットの品質を向上させる。
Wiki上のTQAは25.51%,HotpotQA上のMHQAは22.57%向上した。
- 参考スコア(独自算出の注目度): 38.30192495271699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generation has recently emerged as a promising approach for enhancing the capabilities of large language models (LLMs) without the need for expensive human annotations. However, existing methods often generate data that can be low quality or contrived. In this paper, we introduce Source2Synth, a scalable approach for synthetic data generation and curation that is grounded in real-world data sources. Source2Synth takes as input a custom data source and produces synthetic data examples with intermediate reasoning steps. Our method improves the dataset quality by discarding low-quality generations based on their answerability. We demonstrate the generality of this approach by applying it to two tasks that leverage two different types of data: multi-hop question answering (MHQA), where we test complex reasoning abilities leveraging documents, and tabular question answering (TQA), where we test tool usage leveraging tables. Our method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on HotpotQA compared to the fine-tuned baselines.
- Abstract(参考訳): 合成データ生成は、高価な人間のアノテーションを必要とせずに、大規模言語モデル(LLM)の能力を向上するための有望なアプローチとして最近登場した。
しかし、既存の手法は、品質の低いデータやコントリビュート可能なデータを生成することが多い。
本稿では,実世界のデータソースに基盤を置く合成データ生成とキュレーションのためのスケーラブルなアプローチであるSource2Synthを紹介する。
Source2Synthはカスタムデータソースを入力として、中間推論ステップで合成データ例を生成する。
提案手法は,その応答性に基づいて,低品質世代を廃棄することで,データセットの品質を向上させる。
MHQA(Multi-hop Question answering)、文書を活用した複雑な推論能力のテスト、TQA(Tabular Question answering)、テーブルを利用したツール利用テストという2つの異なるタイプのデータを活用する2つのタスクに適用することで、このアプローチの汎用性を実証する。
WikiSQLではTQAが25.51%,HotpotQAではMHQAが22.57%向上した。
関連論文リスト
- Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - Question: How do Large Language Models perform on the Question Answering tasks? Answer: [0.0]
大型言語モデル(LLM)は、少数ショットまたはゼロショットプロンプト技術を用いることで、これらのタスクを明示的にトレーニングする必要なしに、様々なNLPタスクに対して有望な結果を示している。
スタンフォード質問回答データセット 2.0 (SQuAD2) 上で、小型の微調整モデルとアウト・オブ・ザ・ボックスの命令追従 LLM の総合的な性能比較を提案する。
以上の結果から, より小型で細調整されたモデルでは, 細調整されたタスクにおいて, 現状のSOTA(State-Of-The-Art) LLMよりも優れていることがわかったが, 最新のSOTAモデルでは, このギャップを埋めることができる。
論文 参考訳(メタデータ) (2024-12-17T13:19:38Z) - AutoReason: Automatic Few-Shot Reasoning Decomposition [0.0]
思考の連鎖(CoT)は、大規模言語モデルにおけるステップバイステップ推論を改善する手法として近年研究されている。
本稿では,CoTを用いた合理性を自動生成するシステムを提案する。
提案手法は,暗黙的クエリをいくつかの明示的な質問に分解することで,多段階の暗黙的推論能力を向上させる。
論文 参考訳(メタデータ) (2024-12-09T20:35:39Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。
複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。
主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。
私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。
我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T03:02:27Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - When in Doubt, Ask: Generating Answerable and Unanswerable Questions,
Unsupervised [0.0]
質問回答(QA)は、人と機械間の堅牢なコミュニケーションを可能にするための鍵である。
現代のQAで使用される言語モデルは、いくつかの重要なタスクにおいて人間のパフォーマンスを上回っている。
本稿では,この問題を克服する手段として,人工データを用いた人為的データセットの強化について検討する。
論文 参考訳(メタデータ) (2020-10-04T15:56:44Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。