Fugu-MT 論文翻訳(概要): SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

論文の概要: SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

arxiv url: http://arxiv.org/abs/2405.10040v2
Date: Mon, 8 Jul 2024 11:20:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 01:39:50.337454
Title: SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation
Title（参考訳）: SynthesizRR: Retrieval Augmentation を用いた分散データセットの生成
Authors: Abhishek Divekar, Greg Durrett,
Abstract要約: トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
参考スコア（独自算出の注目度）: 55.2480439325792
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: It is often desirable to distill the capabilities of large language models (LLMs) into smaller student models due to compute and memory constraints. One way to do this for classification tasks is via dataset synthesis, which can be accomplished by generating examples of each label from the LLM. Prior approaches to synthesis use few-shot prompting, which relies on the LLM's parametric knowledge to generate usable examples. However, this leads to issues of repetition, bias towards popular entities, and stylistic differences from human text. In this work, we propose Synthesize by Retrieval and Refinement (SynthesizRR), which uses retrieval augmentation to introduce variety into the dataset synthesis process: as retrieved passages vary, the LLM is seeded with different content to generate its examples. We empirically study the synthesis of six datasets, covering topic classification, sentiment analysis, tone detection, and humor, requiring complex synthesis strategies. We find that SynthesizRR greatly improves lexical and semantic diversity, similarity to human-written text, and distillation performance, when compared to 32-shot prompting and four prior approaches. We release our extensive codebase at https://github.com/amazon-science/synthesizrr
Abstract（参考訳）: 大規模言語モデル(LLM)の能力を、計算とメモリの制約によりより小さな学生モデルに抽出することが望ましい。分類タスクでこれを行う方法の1つはデータセット合成であり、LLMから各ラベルの例を生成することで達成できる。合成に先立つアプローチでは、LLMのパラメトリック知識に頼って使用可能な例を生成する、ほとんどショットプロンプトを使用する。しかし、これは繰り返しの問題、ポピュラーな実体への偏見、そして人間の文章と様式的な違いをもたらす。本研究では,検索拡張を用いてデータセット合成プロセスにバラエティを導入するSynthesize by Retrieval and Refinement (SynthesizRR)を提案する。我々は,トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成を経験的に研究し,複雑な合成戦略を必要とする。また,SynthesizRRは,32ショットプロンプトと4つの先行アプローチと比較して,語彙的,意味的多様性,人文的テキストとの類似性,蒸留性能を大幅に改善することがわかった。大規模なコードベースはhttps://github.com/amazon-science/synthesizrrで公開しています。

関連論文リスト

RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。 C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。 SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文参考訳（メタデータ） (2026-02-28T14:47:34Z)
InfoSynth: Information-Guided Benchmark Synthesis for LLMs [69.80981631587501]
大規模言語モデル (LLM) は推論やコード生成において大きな進歩を見せている。従来のベンチマーク作成は人手による作業に依存しています。この作業では、推論ベンチマークの自動生成と評価のための新しいフレームワークであるInfo Synthを紹介した。
論文参考訳（メタデータ） (2026-01-02T05:26:27Z)
The Synthetic Imputation Approach: Generating Optimal Synthetic Texts For Underrepresented Categories In Supervised Classification Tasks [0.0]
高品質なトレーニングセットを構築する際に、タスク内のすべてのカテゴリの十分な例を見つけることは、しばしば困難である。合成計算手法として, 合成計算法を提案する。提案手法は, 注意深いプロンプトと, サンプルからの置き換えでランダムに描画された5つのオリジナル例に基づいて, 合成テキストを生成する。 75本以上の原本の場合、合成計算の性能は原本の全サンプルと同等であり、オーバーフィットは低く、予測可能で、50本分の原本が修正可能である。
論文参考訳（メタデータ） (2025-04-21T15:07:26Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。 LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文参考訳（メタデータ） (2025-02-09T16:43:32Z)
Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文参考訳（メタデータ） (2024-10-29T17:55:00Z)
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis [33.13471417703669]
大規模言語モデル(LLM)は、プログラムを単一のパスで自動ソースで合成する。我々はLintSeqと呼ばれる合成データ生成アルゴリズムを開発し、高品質なコード編集データを生成する。編集シーケンスを微調整したモデルがベースライン合成よりも多様なプログラムを生成することを示す。
論文参考訳（メタデータ） (2024-10-03T17:57:22Z)
Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文参考訳（メタデータ） (2024-09-26T08:03:19Z)
Guiding Enumerative Program Synthesis with Large Language Models [15.500250058226474]
本稿では,形式的合成ベンチマークを解くための大規模言語モデルの能力を評価する。ワンショット合成が失敗すると,新しい列挙合成アルゴリズムを提案する。形式的合成のためのスタンドアロンツールとしてGPT-3.5は,最先端の形式的合成アルゴリズムにより容易に性能が向上することがわかった。
論文参考訳（メタデータ） (2024-03-06T19:13:53Z)
SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? [57.42016037768947]
完全合成テキストイメージペアに基づいてトレーニングされたCLIPモデルであるSynthCLIPを提案する。我々は人間の介入なしに画像と対応するキャプションの合成データセットを大規模に生成する。
論文参考訳（メタデータ） (2024-02-02T18:59:58Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
Too Big to Fail? Active Few-Shot Learning Guided Logic Synthesis [18.961915757370466]
本稿では,過去の合成データに基づいて学習済みモデルを微調整し,未知のネットリストの合成レシピの品質を正確に予測するブルズアイを提案する。このアプローチは、最先端の機械学習アプローチよりも2倍から10倍のランタイム改善とQoR(Quality-of-result)を実現している。
論文参考訳（メタデータ） (2022-04-05T17:18:04Z)
Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文参考訳（メタデータ） (2021-07-07T11:43:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。