論文の概要: Measuring diversity of synthetic prompts and data generated with fine-grained persona prompting
- arxiv url: http://arxiv.org/abs/2505.17390v1
- Date: Fri, 23 May 2025 02:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.763394
- Title: Measuring diversity of synthetic prompts and data generated with fine-grained persona prompting
- Title(参考訳): 微粒なペルソナプロンプトによる合成プロンプトとデータの多様性の測定
- Authors: Gauri Kambhatla, Chantal Shaib, Venkata Govindarajan,
- Abstract要約: 我々は,ペルソナ駆動の合成プロンプトと応答の多様性を,語彙的多様性と冗長性の指標を用いて測定する。
人工的なプロンプトは人書きのプロンプトに比べて著しく多様性が低いことが判明した。
ペルソナ・プロンプティングは語彙的多様性(特に大きなモデルでは)を改善するが、ペルソナの細かい詳細さは顕著に多様性を増すことはない。
- 参考スコア(独自算出の注目度): 2.773884499834578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained personas have recently been used for generating 'diverse' synthetic data for pre-training and supervised fine-tuning of Large Language Models (LLMs). In this work, we measure the diversity of persona-driven synthetically generated prompts and responses with a suite of lexical diversity and redundancy metrics. Firstly, we find that synthetic prompts/instructions are significantly less diverse than human-written ones. Next, we sample responses from LLMs of different sizes with fine-grained and coarse persona descriptions to investigate how much fine-grained detail in persona descriptions contribute to generated text diversity. We find that while persona-prompting does improve lexical diversity (especially with larger models), fine-grained detail in personas doesn't increase diversity noticeably.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の事前学習と教師付き微調整のために,多種多様な合成データを生成するために,微粒なペルソナが使用されている。
本研究では,ペルソナ駆動の合成プロンプトと応答の多様性を,語彙的多様性と冗長性の指標を用いて測定する。
まず、人工的なプロンプト/インストラクションは人書きのプロンプトに比べて著しく多様性が低いことが判明した。
次に、細粒度で粗いペルソナ記述を持つ異なるサイズのLSMからの応答をサンプリングし、ペルソナ記述の詳細な詳細が生成したテキストの多様性にどの程度寄与するかを調べる。
ペルソナ・プロンプティングは語彙的多様性(特に大きなモデルでは)を改善するが、ペルソナの細かい詳細さは顕著に多様性を増すことはない。
関連論文リスト
- A Penalty Goes a Long Way: Measuring Lexical Diversity in Synthetic Texts Under Prompt-Influenced Length Variations [21.27593629875137]
PATTR(Pinalty-Adjusted Type-Token Ratio)は、長さの変動に頑健な多様性指標である。
LLaMA,OLMo,Phiの7つのモデルを用いて,2000万語以上の大合成コーパスを生成する。
論文 参考訳(メタデータ) (2025-07-20T19:14:43Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Improving Linguistic Diversity of Large Language Models with Possibility Exploration Fine-Tuning [23.456302461693053]
PEFT(Possibility Exploration Fine-Tuning)は、大規模言語モデル(LLM)のテキストの多様性を高めるためのタスクに依存しないフレームワークである。
PEFT は LLM 出力の多様性を著しく向上させる。
また、対話システムにおける人口統計バイアスを顕著に低減することができる。
論文 参考訳(メタデータ) (2024-12-04T14:23:16Z) - Improving Structural Diversity of Blackbox LLMs via Chain-of-Specification Prompting [28.971248570622603]
そこで本研究では,ユーザが生成したテキストから,興味のある多様性を捉えた特徴までをマッピングする,構造的多様性と呼ばれる多様性指標を提案する。
実験では,詩文やコード領域の構造的多様性に対して,CoSはいくつかのベースラインに比べて多様性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-08-12T14:34:06Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL [51.48239006107272]
本稿では,テキスト・ツー・ダイバーシティ研究における実証の多様性を計測し,改善する方法について論じる。
我々は,高多様性のデモンストレーションプールを構築するために,デモ(Fused)のために反復的に融合することを提案する。
本手法は,複数の主流データセットにラベルを付けることなく,平均3.2%と5.0%の改善を実現する。
論文 参考訳(メタデータ) (2024-02-16T13:13:18Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z) - MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination [96.91091607251526]
本稿では, 人的部分に基づく識別器と自己対応型識別器を併用した多点識別拡張生成適応ネットワークを提案する。
HPDモジュールには、多彩な外観と鮮明な詳細を強制するために、きめ細かい単語レベルの注意機構が採用されている。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
論文 参考訳(メタデータ) (2020-10-02T12:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。