論文の概要: SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation
- arxiv url: http://arxiv.org/abs/2405.10040v1
- Date: Thu, 16 May 2024 12:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:22:13.219509
- Title: SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation
- Title(参考訳): SynthesizRR: Retrieval Augmentation を用いた分散データセットの生成
- Authors: Abhishek Divekar, Greg Durrett,
- Abstract要約: 大規模言語モデル(LLM)は汎用性が高く,多くのタスクに対処できるが,計算効率向上のためには,より小さな学生モデルに拡張することが望ましい。
分類タスクでこれを行う方法の1つはデータセット合成であり、LLMから各ラベルの例を生成することで達成できる。
本稿では、検索拡張を用いて、データセット合成プロセスにバラツキを導入するSynthesize by Retrieval and Refinement(SynthesizRR)を提案する。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are versatile and can address many tasks, but for computational efficiency, it is often desirable to distill their capabilities into smaller student models. One way to do this for classification tasks is via dataset synthesis, which can be accomplished by generating examples of each label from the LLM. Prior approaches to synthesis use few-shot prompting, which relies on the LLM's parametric knowledge to generate usable examples. However, this leads to issues of repetition, bias towards popular entities, and stylistic differences from human text. In this work, we propose Synthesize by Retrieval and Refinement (SynthesizRR), which uses retrieval augmentation to introduce variety into the dataset synthesis process: as retrieved passages vary, the LLM is "seeded" with different content to generate its examples. We empirically study the synthesis of six datasets, covering topic classification, sentiment analysis, tone detection, and humor, requiring complex synthesis strategies. We find SynthesizRR greatly improves lexical and semantic diversity, similarity to human-written text, and distillation performance, when compared to standard 32-shot prompting and six baseline approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は汎用性が高く、多くのタスクに対処できるが、計算効率ではより小さな学生モデルにその能力を抽出することが望ましい。
分類タスクでこれを行う方法の1つはデータセット合成であり、LLMから各ラベルの例を生成することで達成できる。
合成への以前のアプローチでは、LLMのパラメトリック知識に頼って使用可能な例を生成する、ほとんどショットプロンプトを使用する。
しかし、これは繰り返しの問題、ポピュラーな実体への偏見、そして人間の文章と様式的な違いをもたらす。
本稿では,検索拡張を用いてデータセット合成プロセスに多様性を導入するSynthesize by Retrieval and Refinement (SynthesizRR)を提案する。
我々は6つのデータセットの合成を経験的に研究し、トピック分類、感情分析、トーン検出、ユーモアをカバーし、複雑な合成戦略を必要とする。
従来の32ショットプロンプトと6つのベースラインアプローチと比較して,SynthesizRRは語彙的および意味的多様性,人文テキストとの類似性,蒸留性能を大幅に改善する。
関連論文リスト
- Guiding Enumerative Program Synthesis with Large Language Models [15.500250058226474]
本稿では,形式的合成ベンチマークを解くための大規模言語モデルの能力を評価する。
ワンショット合成が失敗すると,新しい列挙合成アルゴリズムを提案する。
形式的合成のためのスタンドアロンツールとしてGPT-3.5は,最先端の形式的合成アルゴリズムにより容易に性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-06T19:13:53Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Visualizing Linguistic Diversity of Text Datasets Synthesized by Large
Language Models [9.808214545408541]
LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。
テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
論文 参考訳(メタデータ) (2023-05-19T00:53:45Z) - Do Multi-Document Summarization Models Synthesize? [24.170828395176727]
我々は、一連の要約モデルを用いて、意見とエビデンス合成データセットに関する実験を行う。
既存のモデルは部分的には合成を行うが、不完全である。
本稿では,モデル合成機能を改善するための,シンプルで汎用的で効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-01-31T18:40:46Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Too Big to Fail? Active Few-Shot Learning Guided Logic Synthesis [18.961915757370466]
本稿では,過去の合成データに基づいて学習済みモデルを微調整し,未知のネットリストの合成レシピの品質を正確に予測するブルズアイを提案する。
このアプローチは、最先端の機械学習アプローチよりも2倍から10倍のランタイム改善とQoR(Quality-of-result)を実現している。
論文 参考訳(メタデータ) (2022-04-05T17:18:04Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。