論文の概要: Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment
- arxiv url: http://arxiv.org/abs/2403.11124v2
- Date: Sat, 30 Mar 2024 16:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:44:58.860475
- Title: Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment
- Title(参考訳): ヒューマンアライメントにおける微調整言語モデルのためのデータ多様性のスケーリング
- Authors: Feifan Song, Bowen Yu, Hao Lang, Haiyang Yu, Fei Huang, Houfeng Wang, Yongbin Li,
- Abstract要約: 人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
- 参考スコア(独自算出の注目度): 84.32768080422349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment with human preference prevents large language models (LLMs) from generating misleading or toxic content while requiring high-cost human feedback. Assuming resources of human annotation are limited, there are two different ways of allocating considered: more diverse PROMPTS or more diverse RESPONSES to be labeled. Nonetheless, a straightforward comparison between their impact is absent. In this work, we first control the diversity of both sides according to the number of samples for fine-tuning, which can directly reflect their influence. We find that instead of numerous prompts, more responses but fewer prompts better trigger LLMs for human alignment. Additionally, the concept of diversity for prompts can be more complex than responses that are typically quantified by single digits. Consequently, a new formulation of prompt diversity is proposed, further implying a linear correlation with the final performance of LLMs after fine-tuning. We also leverage it on data augmentation and conduct experiments to show its effect on different algorithms.
- Abstract(参考訳): 人間の嗜好の調整は、大規模な言語モデル(LLM)が、高コストの人間のフィードバックを必要としながら、誤解を招く、または有害なコンテンツを生成するのを防ぐ。
人間のアノテーションのリソースが限られていると仮定すると、より多様な PROMPTS またはより多様な RESPONSES をラベル付けする2つの方法がある。
それでも、その影響の直接的な比較は行われていない。
本研究では,その影響を直接反映できる微調整用サンプルの数に応じて,まず両面の多様性を制御した。
多数のプロンプトの代わりに、より多くの応答があるが、人間のアライメントのためにLSMをより良く引き起こすプロンプトは少ない。
さらに、プロンプトの多様性の概念は、通常1桁で定量化される応答よりも複雑である。
その結果, 高速な多様性の新たな定式化が提案され, 微調整後のLLMの最終性能と線形相関が示唆された。
また、データ拡張に利用して、異なるアルゴリズムにその影響を示す実験を行います。
関連論文リスト
- Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Quantifying the Persona Effect in LLM Simulations [29.968845575976232]
ペルソナ変数は、既存の主観的NLPデータセットにおけるアノテーションの10%の分散を説明することができる。
ペルソナプロンプトは、アノテータ間の不一致が頻繁に発生するが、限られた範囲に限定されるデータサンプルに対して最も効果的である。
論文 参考訳(メタデータ) (2024-02-16T16:35:35Z) - Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL [55.2326738851157]
本稿では,テキスト・ツー・ダイバーシティ研究における実証の多様性を計測し,改善する方法について論じる。
我々は,高多様性のデモンストレーションプールを構築するために,デモ(Fused)のために反復的に融合することを提案する。
本手法は,複数の主流データセットにラベルを付けることなく,平均3.2%と5.0%の改善を実現する。
論文 参考訳(メタデータ) (2024-02-16T13:13:18Z) - Eliciting Personality Traits in Large Language Models [0.0]
大規模言語モデル(LLM)は採用の文脈において、候補者と雇用主の両方が利用している。
本研究は,異なる入力プロンプトに基づいて,それらの出力変動を調べることによって,そのようなモデルをよりよく理解することを目的とする。
論文 参考訳(メタデータ) (2024-02-13T10:09:00Z) - Effects of diversity incentives on sample diversity and downstream model
performance in LLM-based text augmentation [6.647958966528349]
クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。
タブー語によって多様性が最も増大することが示されるが、下流モデルの性能はヒントを伴って最高である。
論文 参考訳(メタデータ) (2024-01-12T15:46:43Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Increasing Diversity While Maintaining Accuracy: Text Data Generation
with Large Language Models and Human Interventions [30.464763055981933]
大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためにテキストデータを生成するために用いられる。
LLMベースのテキストデータ生成において,高い多様性と精度を実現するために,人間とAIのパートナーシップを検討する。
論文 参考訳(メタデータ) (2023-06-07T04:27:09Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。