論文の概要: Measuring Lexical Diversity of Synthetic Data Generated through Fine-Grained Persona Prompting
- arxiv url: http://arxiv.org/abs/2505.17390v2
- Date: Fri, 19 Sep 2025 01:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.050486
- Title: Measuring Lexical Diversity of Synthetic Data Generated through Fine-Grained Persona Prompting
- Title(参考訳): 微粒人体プロンプティングによる合成データの語彙多様性の測定
- Authors: Gauri Kambhatla, Chantal Shaib, Venkata Govindarajan,
- Abstract要約: 我々はペルソナ駆動の合成プロンプトと応答の多様性を測定する。
ペルソナ記述の詳細な詳細が生成したテキストの多様性にどの程度寄与するかを検討する。
- 参考スコア(独自算出の注目度): 4.095543579619801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained personas have recently been used for generating 'diverse' synthetic data for pre-training and supervised fine-tuning of Large Language Models (LLMs). In this work, we measure the diversity of persona-driven synthetically generated prompts and responses with a suite of lexical diversity and redundancy metrics. First, we find that synthetic prompts/instructions are significantly less diverse than human-written ones. Next, we sample responses from LLMs of different sizes with fine-grained and coarse persona descriptions to investigate how much fine-grained detail in persona descriptions contribute to generated text diversity. Our results indicate that persona prompting produces higher lexical diversity than prompting without personas, particularly in larger models. In contrast, adding fine-grained persona details yields minimal gains in diversity compared to simply specifying a length cutoff in the prompt.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の事前学習と教師付き微調整のために,多種多様な合成データを生成するために,微粒なペルソナが使用されている。
本研究では,ペルソナ駆動の合成プロンプトと応答の多様性を,語彙的多様性と冗長性の指標を用いて測定する。
まず、人工的なプロンプト/インストラクションは人書きのプロンプトに比べて明らかに多様性が低いことを発見した。
次に、細粒度で粗いペルソナ記述を持つ異なるサイズのLSMからの応答をサンプリングし、ペルソナ記述の詳細な詳細が生成したテキストの多様性にどの程度寄与するかを調べる。
以上の結果から,ペルソナの促進は,特に大規模モデルにおいてペルソナを含まない場合よりも高い語彙多様性をもたらすことが示唆された。
対照的に、細かなペルソナの詳細を追加すると、プロンプトの長さカットオフを単純に指定するのに比べて、多様性において最小限の利得が得られる。
関連論文リスト
- A Penalty Goes a Long Way: Measuring Lexical Diversity in Synthetic Texts Under Prompt-Influenced Length Variations [21.27593629875137]
PATTR(Pinalty-Adjusted Type-Token Ratio)は、長さの変動に頑健な多様性指標である。
LLaMA,OLMo,Phiの7つのモデルを用いて,2000万語以上の大合成コーパスを生成する。
論文 参考訳(メタデータ) (2025-07-20T19:14:43Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Improving Linguistic Diversity of Large Language Models with Possibility Exploration Fine-Tuning [23.456302461693053]
PEFT(Possibility Exploration Fine-Tuning)は、大規模言語モデル(LLM)のテキストの多様性を高めるためのタスクに依存しないフレームワークである。
PEFT は LLM 出力の多様性を著しく向上させる。
また、対話システムにおける人口統計バイアスを顕著に低減することができる。
論文 参考訳(メタデータ) (2024-12-04T14:23:16Z) - Improving Structural Diversity of Blackbox LLMs via Chain-of-Specification Prompting [28.971248570622603]
そこで本研究では,ユーザが生成したテキストから,興味のある多様性を捉えた特徴までをマッピングする,構造的多様性と呼ばれる多様性指標を提案する。
実験では,詩文やコード領域の構造的多様性に対して,CoSはいくつかのベースラインに比べて多様性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-08-12T14:34:06Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL [51.48239006107272]
本稿では,テキスト・ツー・ダイバーシティ研究における実証の多様性を計測し,改善する方法について論じる。
我々は,高多様性のデモンストレーションプールを構築するために,デモ(Fused)のために反復的に融合することを提案する。
本手法は,複数の主流データセットにラベルを付けることなく,平均3.2%と5.0%の改善を実現する。
論文 参考訳(メタデータ) (2024-02-16T13:13:18Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z) - MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination [96.91091607251526]
本稿では, 人的部分に基づく識別器と自己対応型識別器を併用した多点識別拡張生成適応ネットワークを提案する。
HPDモジュールには、多彩な外観と鮮明な詳細を強制するために、きめ細かい単語レベルの注意機構が採用されている。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
論文 参考訳(メタデータ) (2020-10-02T12:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。