論文の概要: Not All Documents Are What You Need for Extracting Instruction Tuning Data
- arxiv url: http://arxiv.org/abs/2505.12250v1
- Date: Sun, 18 May 2025 06:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.120015
- Title: Not All Documents Are What You Need for Extracting Instruction Tuning Data
- Title(参考訳): インストラクションチューニングデータの抽出に必要なすべてのドキュメントではない
- Authors: Chi Zhang, Huaping Zhong, Hongtao Li, Chengliang Chai, Jiawei Hong, Yuhao Deng, Jiacheng Wang, Tian Tan, Yizhou Yan, Jiantao Qiu, Ye Yuan, Guoren Wang, Conghui He, Lei Cao,
- Abstract要約: 本研究では,多種多様な知識を含む Web コーパスから指導用チューニングデータを抽出する手法を提案する。
単純な解決策は、ドメイン固有のドキュメントを取得して、それらからすべてのQAペアを抽出することだが、これは2つの重要な課題に直面している。
EQUALは、文書の選択と高品質なQAペア抽出を交互に行う、効率的でスケーラブルなデータ抽出フレームワークである。
- 参考スコア(独自算出の注目度): 35.52312217796995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning improves the performance of large language models (LLMs), but it heavily relies on high-quality training data. Recently, LLMs have been used to synthesize instruction data using seed question-answer (QA) pairs. However, these synthesized instructions often lack diversity and tend to be similar to the input seeds, limiting their applicability in real-world scenarios. To address this, we propose extracting instruction tuning data from web corpora that contain rich and diverse knowledge. A naive solution is to retrieve domain-specific documents and extract all QA pairs from them, but this faces two key challenges: (1) extracting all QA pairs using LLMs is prohibitively expensive, and (2) many extracted QA pairs may be irrelevant to the downstream tasks, potentially degrading model performance. To tackle these issues, we introduce EQUAL, an effective and scalable data extraction framework that iteratively alternates between document selection and high-quality QA pair extraction to enhance instruction tuning. EQUAL first clusters the document corpus based on embeddings derived from contrastive learning, then uses a multi-armed bandit strategy to efficiently identify clusters that are likely to contain valuable QA pairs. This iterative approach significantly reduces computational cost while boosting model performance. Experiments on AutoMathText and StackOverflow across four downstream tasks show that EQUAL reduces computational costs by 5-10x and improves accuracy by 2.5 percent on LLaMA-3.1-8B and Mistral-7B
- Abstract(参考訳): インストラクションチューニングは、大規模言語モデル(LLM)の性能を向上させるが、高品質なトレーニングデータに大きく依存する。
近年、LLMはシード質問応答(QA)ペアを使用して命令データを合成するために使用されている。
しかしながら、これらの合成された命令は、しばしば多様性を欠き、入力種子と似ている傾向にあり、現実世界のシナリオで適用性を制限する。
そこで本研究では,多種多様な知識を含むWebコーパスから指導用チューニングデータを抽出する手法を提案する。
1) LLMを用いた全てのQAペアの抽出は違法に高価であり, 2) 抽出されたQAペアの多くは下流タスクとは無関係であり, モデル性能を低下させる可能性がある。
これらの課題に対処するために、文書選択と高品質QAペア抽出を反復的に交互に交互に交互に行う、効果的でスケーラブルなデータ抽出フレームワークであるEQUALを導入する。
EQUALはまず、コントラスト学習から派生した埋め込みに基づいてドキュメントコーパスをクラスタ化し、次に、マルチアームのバンディット戦略を使用して、価値あるQAペアを含む可能性のあるクラスタを効率的に識別する。
この反復的アプローチは、モデル性能を高めながら計算コストを大幅に削減する。
4つの下流タスクにわたるAutoMathTextとStackOverflowの実験によると、EQUALは計算コストを5~10倍削減し、LLaMA-3.1-8BとMistral-7Bで精度を2.5パーセント向上する。
関連論文リスト
- Language Models Benefit from Preparation with Elicited Knowledge [0.38233569758620056]
言語モデル(LM)の2つのインスタンスを使用する単純なプロンプト技術であるPreprePを導入する。
PrePはドメイン固有のプロンプトエンジニアリングなしで様々なQAタスクに適用できる。
提案手法を,部品・材料分析データセットと3つの共感覚推論データセットで検証した。
論文 参考訳(メタデータ) (2024-09-02T15:58:27Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。