Fugu-MT 論文翻訳(概要): SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

論文の概要: SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

arxiv url: http://arxiv.org/abs/2405.10040v1
Date: Thu, 16 May 2024 12:22:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 14:22:13.219509
Title: SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation
Title（参考訳）: SynthesizRR: Retrieval Augmentation を用いた分散データセットの生成
Authors: Abhishek Divekar, Greg Durrett,
Abstract要約: 大規模言語モデル(LLM)は汎用性が高く,多くのタスクに対処できるが,計算効率向上のためには,より小さな学生モデルに拡張することが望ましい。分類タスクでこれを行う方法の1つはデータセット合成であり、LLMから各ラベルの例を生成することで達成できる。本稿では、検索拡張を用いて、データセット合成プロセスにバラツキを導入するSynthesize by Retrieval and Refinement(SynthesizRR)を提案する。
参考スコア（独自算出の注目度）: 55.2480439325792
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) are versatile and can address many tasks, but for computational efficiency, it is often desirable to distill their capabilities into smaller student models. One way to do this for classification tasks is via dataset synthesis, which can be accomplished by generating examples of each label from the LLM. Prior approaches to synthesis use few-shot prompting, which relies on the LLM's parametric knowledge to generate usable examples. However, this leads to issues of repetition, bias towards popular entities, and stylistic differences from human text. In this work, we propose Synthesize by Retrieval and Refinement (SynthesizRR), which uses retrieval augmentation to introduce variety into the dataset synthesis process: as retrieved passages vary, the LLM is "seeded" with different content to generate its examples. We empirically study the synthesis of six datasets, covering topic classification, sentiment analysis, tone detection, and humor, requiring complex synthesis strategies. We find SynthesizRR greatly improves lexical and semantic diversity, similarity to human-written text, and distillation performance, when compared to standard 32-shot prompting and six baseline approaches.
Abstract（参考訳）: 大規模言語モデル(LLM)は汎用性が高く、多くのタスクに対処できるが、計算効率ではより小さな学生モデルにその能力を抽出することが望ましい。分類タスクでこれを行う方法の1つはデータセット合成であり、LLMから各ラベルの例を生成することで達成できる。合成への以前のアプローチでは、LLMのパラメトリック知識に頼って使用可能な例を生成する、ほとんどショットプロンプトを使用する。しかし、これは繰り返しの問題、ポピュラーな実体への偏見、そして人間の文章と様式的な違いをもたらす。本稿では,検索拡張を用いてデータセット合成プロセスに多様性を導入するSynthesize by Retrieval and Refinement (SynthesizRR)を提案する。我々は6つのデータセットの合成を経験的に研究し、トピック分類、感情分析、トーン検出、ユーモアをカバーし、複雑な合成戦略を必要とする。従来の32ショットプロンプトと6つのベースラインアプローチと比較して,SynthesizRRは語彙的および意味的多様性,人文テキストとの類似性,蒸留性能を大幅に改善する。

関連論文リスト

RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。 C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。 SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文参考訳（メタデータ） (2026-02-28T14:47:34Z)
InfoSynth: Information-Guided Benchmark Synthesis for LLMs [69.80981631587501]
大規模言語モデル (LLM) は推論やコード生成において大きな進歩を見せている。従来のベンチマーク作成は人手による作業に依存しています。この作業では、推論ベンチマークの自動生成と評価のための新しいフレームワークであるInfo Synthを紹介した。
論文参考訳（メタデータ） (2026-01-02T05:26:27Z)
The Synthetic Imputation Approach: Generating Optimal Synthetic Texts For Underrepresented Categories In Supervised Classification Tasks [0.0]
高品質なトレーニングセットを構築する際に、タスク内のすべてのカテゴリの十分な例を見つけることは、しばしば困難である。合成計算手法として, 合成計算法を提案する。提案手法は, 注意深いプロンプトと, サンプルからの置き換えでランダムに描画された5つのオリジナル例に基づいて, 合成テキストを生成する。 75本以上の原本の場合、合成計算の性能は原本の全サンプルと同等であり、オーバーフィットは低く、予測可能で、50本分の原本が修正可能である。
論文参考訳（メタデータ） (2025-04-21T15:07:26Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。 LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文参考訳（メタデータ） (2025-02-09T16:43:32Z)
Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文参考訳（メタデータ） (2024-10-29T17:55:00Z)
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis [33.13471417703669]
大規模言語モデル(LLM)は、プログラムを単一のパスで自動ソースで合成する。我々はLintSeqと呼ばれる合成データ生成アルゴリズムを開発し、高品質なコード編集データを生成する。編集シーケンスを微調整したモデルがベースライン合成よりも多様なプログラムを生成することを示す。
論文参考訳（メタデータ） (2024-10-03T17:57:22Z)
Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文参考訳（メタデータ） (2024-09-26T08:03:19Z)
Guiding Enumerative Program Synthesis with Large Language Models [15.500250058226474]
本稿では,形式的合成ベンチマークを解くための大規模言語モデルの能力を評価する。ワンショット合成が失敗すると,新しい列挙合成アルゴリズムを提案する。形式的合成のためのスタンドアロンツールとしてGPT-3.5は,最先端の形式的合成アルゴリズムにより容易に性能が向上することがわかった。
論文参考訳（メタデータ） (2024-03-06T19:13:53Z)
SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? [57.42016037768947]
完全合成テキストイメージペアに基づいてトレーニングされたCLIPモデルであるSynthCLIPを提案する。我々は人間の介入なしに画像と対応するキャプションの合成データセットを大規模に生成する。
論文参考訳（メタデータ） (2024-02-02T18:59:58Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
Too Big to Fail? Active Few-Shot Learning Guided Logic Synthesis [18.961915757370466]
本稿では,過去の合成データに基づいて学習済みモデルを微調整し,未知のネットリストの合成レシピの品質を正確に予測するブルズアイを提案する。このアプローチは、最先端の機械学習アプローチよりも2倍から10倍のランタイム改善とQoR(Quality-of-result)を実現している。
論文参考訳（メタデータ） (2022-04-05T17:18:04Z)
Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文参考訳（メタデータ） (2021-07-07T11:43:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。