論文の概要: A Penalty Goes a Long Way: Measuring Lexical Diversity in Synthetic Texts Under Prompt-Influenced Length Variations
- arxiv url: http://arxiv.org/abs/2507.15092v1
- Date: Sun, 20 Jul 2025 19:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.192604
- Title: A Penalty Goes a Long Way: Measuring Lexical Diversity in Synthetic Texts Under Prompt-Influenced Length Variations
- Title(参考訳): ペナルティは長い道のりをたどる: 急激な長さ変化下における合成文の語彙的多様性の測定
- Authors: Vijeta Deshpande, Ishita Dasgupta, Uttaran Bhattacharya, Somdeb Sarkhel, Saayan Mitra, Anna Rumshisky,
- Abstract要約: PATTR(Pinalty-Adjusted Type-Token Ratio)は、長さの変動に頑健な多様性指標である。
LLaMA,OLMo,Phiの7つのモデルを用いて,2000万語以上の大合成コーパスを生成する。
- 参考スコア(独自算出の注目度): 21.27593629875137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetic text generated by Large Language Models (LLMs) is increasingly used for further training and improvement of LLMs. Diversity is crucial for the effectiveness of synthetic data, and researchers rely on prompt engineering to improve diversity. However, the impact of prompt variations on response text length, and, more importantly, the consequential effect on lexical diversity measurements, remain underexplored. In this work, we propose Penalty-Adjusted Type-Token Ratio (PATTR), a diversity metric robust to length variations. We generate a large synthetic corpus of over 20M words using seven models from the LLaMA, OLMo, and Phi families, focusing on a creative writing task of video script generation, where diversity is crucial. We evaluate per-response lexical diversity using PATTR and compare it against existing metrics of Moving-Average TTR (MATTR) and Compression Ratio (CR). Our analysis highlights how text length variations introduce biases favoring shorter responses. Unlike existing metrics, PATTR explicitly considers the task-specific target response length ($L_T$) to effectively mitigate length biases. We further demonstrate the utility of PATTR in filtering the top-10/100/1,000 most lexically diverse responses, showing that it consistently outperforms MATTR and CR by yielding on par or better diversity with high adherence to $L_T$.
- Abstract(参考訳): LLM(Large Language Models)が生成する合成テキストは、LLMのさらなるトレーニングと改善にますます利用されている。
多様性は合成データの有効性に不可欠であり、研究者は多様性を改善するために迅速な工学に依存している。
しかし, 応答文の長さに即時変化が与える影響や, さらに重要なことは, 語彙的多様性の測定に対する連続的な影響は未解明のままである。
本研究では,PATTR(Pentalty-Adjusted Type-Token Ratio)を提案する。
LLaMA,OLMo,Phiファミリーの7つのモデルを用いて,2000万以上の単語からなる大規模な合成コーパスを生成する。
PATTRを用いて応答ごとの語彙多様性を評価し,MATTR(Moving-Average TTR)とCR(Compression Ratio)の既存の指標と比較した。
分析では,テキスト長の変動が短い応答を優先するバイアスをいかに引き起こすかを強調した。
既存のメトリクスとは異なり、PATTRはタスク固有のターゲット応答長(L_T$)を明示的に考慮し、効果的に長さバイアスを緩和する。
さらに, PATTR は, 最大10/100/1,000 のレキシカルな応答をフィルタリングし, MATTR と CR を常に上回っていることを示す。
関連論文リスト
- Measuring diversity of synthetic prompts and data generated with fine-grained persona prompting [2.773884499834578]
我々は,ペルソナ駆動の合成プロンプトと応答の多様性を,語彙的多様性と冗長性の指標を用いて測定する。
人工的なプロンプトは人書きのプロンプトに比べて著しく多様性が低いことが判明した。
ペルソナ・プロンプティングは語彙的多様性(特に大きなモデルでは)を改善するが、ペルソナの細かい詳細さは顕著に多様性を増すことはない。
論文 参考訳(メタデータ) (2025-05-23T02:00:00Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Improving Linguistic Diversity of Large Language Models with Possibility Exploration Fine-Tuning [23.456302461693053]
PEFT(Possibility Exploration Fine-Tuning)は、大規模言語モデル(LLM)のテキストの多様性を高めるためのタスクに依存しないフレームワークである。
PEFT は LLM 出力の多様性を著しく向上させる。
また、対話システムにおける人口統計バイアスを顕著に低減することができる。
論文 参考訳(メタデータ) (2024-12-04T14:23:16Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - GANPrompt: Enhancing Robustness in LLM-Based Recommendations with GAN-Enhanced Diversity Prompts [15.920623515602038]
大規模言語モデル(LLM)は、素早い単語の影響を受けやすい。
本稿では,GAN(Generative Adversarial Networks)に基づく多次元LCMの多様性フレームワークであるGANPromptを提案する。
このフレームワークは,GAN生成技術とLLMの深い意味理解機能を統合することにより,多様なプロンプトに対するモデルの適応性と安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-19T03:13:20Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores [28.431348662950743]
テキストの繰り返しを計測し抽出するためのPythonパッケージをリリースする。
ユーザがテキストの繰り返しをインタラクティブに探索するための、多様性に基づくプラットフォームを構築します。
論文 参考訳(メタデータ) (2024-03-01T14:23:12Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination [96.91091607251526]
本稿では, 人的部分に基づく識別器と自己対応型識別器を併用した多点識別拡張生成適応ネットワークを提案する。
HPDモジュールには、多彩な外観と鮮明な詳細を強制するために、きめ細かい単語レベルの注意機構が採用されている。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
論文 参考訳(メタデータ) (2020-10-02T12:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。