論文の概要: Effects of diversity incentives on sample diversity and downstream model
performance in LLM-based text augmentation
- arxiv url: http://arxiv.org/abs/2401.06643v2
- Date: Thu, 15 Feb 2024 11:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 20:51:18.772657
- Title: Effects of diversity incentives on sample diversity and downstream model
performance in LLM-based text augmentation
- Title(参考訳): LLMテキスト強化における多様性インセンティブがサンプル多様性および下流モデル性能に及ぼす影響
- Authors: Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova,
Peter Brusilovsky
- Abstract要約: クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。
タブー語によって多様性が最も増大することが示されるが、下流モデルの性能はヒントを伴って最高である。
- 参考スコア(独自算出の注目度): 6.647958966528349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The latest generative large language models (LLMs) have found their
application in data augmentation tasks, where small numbers of text samples are
LLM-paraphrased and then used to fine-tune downstream models. However, more
research is needed to assess how different prompts, seed data selection
strategies, filtering methods, or model settings affect the quality of
paraphrased data (and downstream models). In this study, we investigate three
text diversity incentive methods well established in crowdsourcing: taboo
words, hints by previous outlier solutions, and chaining on previous outlier
solutions. Using these incentive methods as part of instructions to LLMs
augmenting text datasets, we measure their effects on generated texts lexical
diversity and downstream model performance. We compare the effects over 5
different LLMs, 6 datasets and 2 downstream models. We show that diversity is
most increased by taboo words, but downstream model performance is highest with
hints.
- Abstract(参考訳): 最新の生成型大規模言語モデル(LLM)は、少数のテキストサンプルをLLMで表現し、下流モデルの微調整に使用するデータ拡張タスクにその応用を見出した。
しかしながら、異なるプロンプト、シードデータ選択戦略、フィルタリング方法、モデル設定がパラフレッシュデータ(および下流モデル)の品質に与える影響を評価するには、さらなる研究が必要である。
本研究では,クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討した。
これらのインセンティブ手法を,テキストデータセットを拡張したllmの指示の一部として用いることで,語彙の多様性と下流モデルの性能を計測する。
5つの異なるLLM、6つのデータセット、2つの下流モデルに対する効果を比較した。
タブー語によって多様性は最も増大するが、下流モデルのパフォーマンスはヒントとともに最高である。
関連論文リスト
- Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
データ多様性の低い問題に対処するため、私たちのパイプラインは知識グラフ(KG)を使用してエンティティや量を取り出す。
高いデータノイズに対処するため、GCSEモデルは偽硬陰性サンプルの影響を制限するためにガウス分解関数を使用する。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - PEDAL: Enhancing Greedy Decoding with Large Language Models using Diverse Exemplars [1.450405446885067]
多様な推論経路を持つ自己認識技術は、大言語モデル(LLM)を用いたテキスト生成において顕著な性能向上を示した。
PEDALは,多種多様な模範的プロンプトの強みとLLMに基づくアグリゲーションを組み合わせて,総合的な性能向上を実現するハイブリッドな自己組織化手法である。
論文 参考訳(メタデータ) (2024-08-16T17:54:09Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。