論文の概要: Effects of diversity incentives on sample diversity and downstream model
performance in LLM-based text augmentation
- arxiv url: http://arxiv.org/abs/2401.06643v1
- Date: Fri, 12 Jan 2024 15:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:11:26.886599
- Title: Effects of diversity incentives on sample diversity and downstream model
performance in LLM-based text augmentation
- Title(参考訳): LLMテキスト強化における多様性インセンティブがサンプル多様性および下流モデル性能に及ぼす影響
- Authors: Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova,
Peter Brusilovsky
- Abstract要約: クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。
また,従来の言い回しをヒントとして用いた場合,下流モデルの性能が最も高かった。
- 参考スコア(独自算出の注目度): 6.647958966528349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The latest generative large language models (LLMs) have found their
application in data augmentation tasks, where small numbers of text samples are
LLM-paraphrased and then used to fine-tune the model. However, more research is
needed to assess how different prompts, seed data selection strategies,
filtering methods, or model settings affect the quality of paraphrased data
(and downstream models). In this study, we investigate three text diversity
incentive methods well established in crowdsourcing: taboo words, hints by
previous outlier solutions, and chaining on previous outlier solutions. Using
these incentive methods as part of instructions to LLMs augmenting text
datasets, we measure their effects on generated texts' lexical diversity and
downstream model performance. We compare the effects over 5 different LLMs and
6 datasets. We show that diversity is most increased by taboo words, while
downstream model performance is highest when previously created paraphrases are
used as hints.
- Abstract(参考訳): 最新の生成型大規模言語モデル(LLM)は、少数のテキストサンプルをLLMで表現し、モデルを微調整するために使用するデータ拡張タスクにその応用を見出した。
しかしながら、異なるプロンプト、シードデータ選択戦略、フィルタリング方法、モデル設定がパラフレッシュデータ(および下流モデル)の品質に与える影響を評価するには、さらなる研究が必要である。
本研究では,クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討した。
これらのインセンティブ法を,LLMのテキストデータセット拡張命令の一部として用いて,生成したテキストの語彙的多様性と下流モデルの性能に与える影響を計測する。
5つの異なるLLMと6つのデータセットに対する効果を比較する。
従来のパラフレーズをヒントとして使用する場合,下流モデルのパフォーマンスが最も高いのに対して,タブー語では多様性がもっとも増大することを示す。
関連論文リスト
- Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
データ多様性の低い問題に対処するため、私たちのパイプラインは知識グラフ(KG)を使用してエンティティや量を取り出す。
高いデータノイズに対処するため、GCSEモデルは偽硬陰性サンプルの影響を制限するためにガウス分解関数を使用する。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - PEDAL: Enhancing Greedy Decoding with Large Language Models using Diverse Exemplars [1.450405446885067]
多様な推論経路を持つ自己認識技術は、大言語モデル(LLM)を用いたテキスト生成において顕著な性能向上を示した。
PEDALは,多種多様な模範的プロンプトの強みとLLMに基づくアグリゲーションを組み合わせて,総合的な性能向上を実現するハイブリッドな自己組織化手法である。
論文 参考訳(メタデータ) (2024-08-16T17:54:09Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。