Fugu-MT 論文翻訳(概要): Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment

論文の概要: Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment

arxiv url: http://arxiv.org/abs/2403.11124v2
Date: Sat, 30 Mar 2024 16:48:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 13:44:58.860475
Title: Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment
Title（参考訳）: ヒューマンアライメントにおける微調整言語モデルのためのデータ多様性のスケーリング
Authors: Feifan Song, Bowen Yu, Hao Lang, Haiyang Yu, Fei Huang, Houfeng Wang, Yongbin Li,
Abstract要約: 人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
参考スコア（独自算出の注目度）: 84.32768080422349
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Alignment with human preference prevents large language models (LLMs) from generating misleading or toxic content while requiring high-cost human feedback. Assuming resources of human annotation are limited, there are two different ways of allocating considered: more diverse PROMPTS or more diverse RESPONSES to be labeled. Nonetheless, a straightforward comparison between their impact is absent. In this work, we first control the diversity of both sides according to the number of samples for fine-tuning, which can directly reflect their influence. We find that instead of numerous prompts, more responses but fewer prompts better trigger LLMs for human alignment. Additionally, the concept of diversity for prompts can be more complex than responses that are typically quantified by single digits. Consequently, a new formulation of prompt diversity is proposed, further implying a linear correlation with the final performance of LLMs after fine-tuning. We also leverage it on data augmentation and conduct experiments to show its effect on different algorithms.
Abstract（参考訳）: 人間の嗜好の調整は、大規模な言語モデル(LLM)が、高コストの人間のフィードバックを必要としながら、誤解を招く、または有害なコンテンツを生成するのを防ぐ。人間のアノテーションのリソースが限られていると仮定すると、より多様な PROMPTS またはより多様な RESPONSES をラベル付けする2つの方法がある。それでも、その影響の直接的な比較は行われていない。本研究では,その影響を直接反映できる微調整用サンプルの数に応じて,まず両面の多様性を制御した。多数のプロンプトの代わりに、より多くの応答があるが、人間のアライメントのためにLSMをより良く引き起こすプロンプトは少ない。さらに、プロンプトの多様性の概念は、通常1桁で定量化される応答よりも複雑である。その結果, 高速な多様性の新たな定式化が提案され, 微調整後のLLMの最終性能と線形相関が示唆された。また、データ拡張に利用して、異なるアルゴリズムにその影響を示す実験を行います。

関連論文リスト

Your Language Model Secretly Contains Personality Subnetworks [31.480534845874473]
大規模言語モデルには,すでにパラメータ空間にペルソナ特化作業が存在することを示す。本手法は完全にトレーニング不要であり,言語モデルの既存のパラメータ空間にのみ依存する。
論文参考訳（メタデータ） (2026-02-06T20:03:28Z)
Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Measuring diversity of synthetic prompts and data generated with fine-grained persona prompting [2.773884499834578]
我々は,ペルソナ駆動の合成プロンプトと応答の多様性を,語彙的多様性と冗長性の指標を用いて測定する。人工的なプロンプトは人書きのプロンプトに比べて著しく多様性が低いことが判明した。ペルソナ・プロンプティングは語彙的多様性(特に大きなモデルでは)を改善するが、ペルソナの細かい詳細さは顕著に多様性を増すことはない。
論文参考訳（メタデータ） (2025-05-23T02:00:00Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Improving Linguistic Diversity of Large Language Models with Possibility Exploration Fine-Tuning [23.456302461693053]
PEFT(Possibility Exploration Fine-Tuning)は、大規模言語モデル(LLM)のテキストの多様性を高めるためのタスクに依存しないフレームワークである。 PEFT は LLM 出力の多様性を著しく向上させる。また、対話システムにおける人口統計バイアスを顕著に低減することができる。
論文参考訳（メタデータ） (2024-12-04T14:23:16Z)
One fish, two fish, but not the whole sea: Alignment reduces language models' conceptual diversity [2.5975241792179378]
研究者は大規模言語モデル(LLM)を人間の行動研究の代替として使用することを提案した。トレーニング後のアライメント(RLHFまたはRLAIF)がモデルの内部多様性に影響を及ぼすかどうかが議論されている。我々は、シミュレーションされた個体の内部変動と集団レベルの変動を関連づけることで、合成合成LLMの「人口」の概念的多様性を測定する新しい方法を用いる。
論文参考訳（メタデータ） (2024-11-07T04:38:58Z)
Using LLMs for Explaining Sets of Counterfactual Examples to Final Users [0.0]
自動意思決定シナリオでは、因果推論手法は基礎となるデータ生成プロセスを分析することができる。カウンターファクトな例では、最小限の要素が変更される仮説的なシナリオを探求する。本稿では,アクションの自然言語説明を生成するために,反事実を用いた新しい多段階パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-27T15:13:06Z)
REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文参考訳（メタデータ） (2024-06-11T21:44:49Z)
ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation [29.718851249656172]
大規模言語モデル(LLM)は、一貫性、スケーラビリティ、コスト効率の面で魅力的な代替手段である。 ACORNは3500のフリーテキストの説明とアスペクトワイドの品質評価のデータセットである。
論文参考訳（メタデータ） (2024-05-08T05:36:52Z)
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文参考訳（メタデータ） (2024-04-22T17:20:18Z)
Quantifying the Persona Effect in LLM Simulations [25.367927300697424]
大規模言語モデル(LLM)は、人間の言語と振る舞いをシミュレートする際、顕著な可能性を示してきた。本研究では,パーソナ変数のデコグラフィ,社会的,行動的要因の統合がLLMの多様な視点をシミュレートする能力にどのように影響するかを検討する。既存の主観的NLPデータセットにおけるアノテーションの10%のばらつきをペルソナ変数が説明できることがわかった。
論文参考訳（メタデータ） (2024-02-16T16:35:35Z)
Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL [51.48239006107272]
本稿では,テキスト・ツー・ダイバーシティ研究における実証の多様性を計測し,改善する方法について論じる。我々は,高多様性のデモンストレーションプールを構築するために,デモ(Fused)のために反復的に融合することを提案する。本手法は,複数の主流データセットにラベルを付けることなく,平均3.2%と5.0%の改善を実現する。
論文参考訳（メタデータ） (2024-02-16T13:13:18Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation [6.273933281069326]
クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。タブー語によって多様性が最も増大することが示されるが、下流モデルの性能はヒントを伴って最高である。
論文参考訳（メタデータ） (2024-01-12T15:46:43Z)
Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文参考訳（メタデータ） (2023-03-30T17:40:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。