論文の概要: Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models
- arxiv url: http://arxiv.org/abs/2505.16245v1
- Date: Thu, 22 May 2025 05:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.055864
- Title: Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models
- Title(参考訳): Diverse, not short: A Longth-Controlled Self-Learning Framework for Improving Response Diversity of Language Models
- Authors: Vijeta Deshpande, Debasmita Ghose, John D. Patterson, Roger Beaty, Anna Rumshisky,
- Abstract要約: 我々は、共通の多様性指標、さらには好み最適化に使用される報酬モデル、より短い出力に向けて体系的にバイアスモデルを示す。
長さパリティを維持しながら応答の多様性を向上する,長さ制御型自己学習フレームワークであるDiverse(Diverse-NS)を紹介する。
- 参考スコア(独自算出の注目度): 8.023589594229914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diverse language model responses are crucial for creative generation, open-ended tasks, and self-improvement training. We show that common diversity metrics, and even reward models used for preference optimization, systematically bias models toward shorter outputs, limiting expressiveness. To address this, we introduce Diverse, not Short (Diverse-NS), a length-controlled self-learning framework that improves response diversity while maintaining length parity. By generating and filtering preference data that balances diversity, quality, and length, Diverse-NS enables effective training using only 3,000 preference pairs. Applied to LLaMA-3.1-8B and the Olmo-2 family, Diverse-NS substantially enhances lexical and semantic diversity. We show consistent improvement in diversity with minor reduction or gains in response quality on four creative generation tasks: Divergent Associations, Persona Generation, Alternate Uses, and Creative Writing. Surprisingly, experiments with the Olmo-2 model family (7B, and 13B) show that smaller models like Olmo-2-7B can serve as effective "diversity teachers" for larger models. By explicitly addressing length bias, our method efficiently pushes models toward more diverse and expressive outputs.
- Abstract(参考訳): 多様な言語モデル応答は、創造的生成、オープンエンドタスク、自己改善トレーニングに不可欠である。
我々は、共通の多様性の指標や、好みの最適化に使用される報酬モデル、より短い出力に対する体系的なバイアスモデル、表現性を制限することを示します。
これを解決するために、長さパリティを維持しながら応答の多様性を向上する長さ制御型自己学習フレームワークであるDiverse, not Short (Diverse-NS)を導入する。
多様性、品質、長さのバランスをとる選好データの生成とフィルタリングによって、Diverse-NSは3000の選好ペアのみを使用して効果的なトレーニングを可能にする。
LLaMA-3.1-8BおよびOlmo-2ファミリーに応用されたDiverse-NSは、語彙的および意味的多様性を大幅に強化する。
本研究は,4つの創造的タスク – ダイバージェント・アソシエーション,ペルソナ・ジェネレーション,オルタナト・ユース,クリエイティブ・ライティング – において,微減や応答品質の向上を伴う多様性の一貫して向上を示す。
驚くべきことに、Olmo-2モデルファミリー (7Bと13B) による実験では、Olmo-2-7Bのような小さなモデルの方が、より大きなモデルに効果的な「多様性の教師」として機能することを示した。
提案手法は,長さバイアスに明示的に対処することにより,モデルをより多様で表現力のある出力へ効率よくプッシュする。
関連論文リスト
- Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - NoveltyBench: Evaluating Language Models for Humanlike Diversity [21.6078675947446]
NoveltyBenchは、言語モデルが複数の異なる高品質な出力を生成する能力を評価するために設計されたベンチマークである。
我々は20の指導的言語モデルを評価し、現在の最先端システムは人間の書き手よりも著しく多様性が低いことを発見した。
論文 参考訳(メタデータ) (2025-04-07T16:14:23Z) - Modifying Large Language Model Post-Training for Diverse Creative Writing [12.872333448726595]
創造的な文章生成において、出力の多様性と品質の両方を促進するためのポストトレーニングアプローチについて検討する。
私たちの中核となる考え方は、希少な高品質なインスタンスからの学習を容易にするためのトレーニング目標の逸脱を含めることです。
8Bパラメータの最良のモデルは、最高の命令チューニングモデルに似た出力品質を持ちながら、人間の作成したデータセットとしてオンパー多様性を達成することができる。
論文 参考訳(メタデータ) (2025-03-21T13:21:45Z) - Improving Diversity of Commonsense Generation by Large Language Models via In-Context Learning [28.654890118684957]
生成コモンセンス推論 (Generative Commonsense Reasoning, GCR) は、コモンセンス知識を用いて状況を理解するためのモデルを必要とする。
生成の多様性は、モデルが様々な常識的知識事実を使用する能力を反映しているため、同様に重要である。
そこで本研究では,LLMの世代を多様化し,その品質を保ちながら簡便な手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:52:39Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。