論文の概要: Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models
- arxiv url: http://arxiv.org/abs/2505.16245v2
- Date: Mon, 26 May 2025 17:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.542008
- Title: Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models
- Title(参考訳): Diverse, not short: A Longth-Controlled Self-Learning Framework for Improving Response Diversity of Language Models
- Authors: Vijeta Deshpande, Debasmita Ghose, John D. Patterson, Roger Beaty, Anna Rumshisky,
- Abstract要約: 我々は、共通の多様性指標、さらには好み最適化に使用される報酬モデル、より短い出力に向けて体系的にバイアスモデルを示す。
長さパリティを維持しながら応答の多様性を向上する,長さ制御型自己学習フレームワークであるDiverse(Diverse-NS)を紹介する。
- 参考スコア(独自算出の注目度): 8.023589594229914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diverse language model responses are crucial for creative generation, open-ended tasks, and self-improvement training. We show that common diversity metrics, and even reward models used for preference optimization, systematically bias models toward shorter outputs, limiting expressiveness. To address this, we introduce Diverse, not Short (Diverse-NS), a length-controlled self-learning framework that improves response diversity while maintaining length parity. By generating and filtering preference data that balances diversity, quality, and length, Diverse-NS enables effective training using only 3,000 preference pairs. Applied to LLaMA-3.1-8B and the Olmo-2 family, Diverse-NS substantially enhances lexical and semantic diversity. We show consistent improvement in diversity with minor reduction or gains in response quality on four creative generation tasks: Divergent Associations, Persona Generation, Alternate Uses, and Creative Writing. Surprisingly, experiments with the Olmo-2 model family (7B, and 13B) show that smaller models like Olmo-2-7B can serve as effective "diversity teachers" for larger models. By explicitly addressing length bias, our method efficiently pushes models toward more diverse and expressive outputs.
- Abstract(参考訳): 多様な言語モデル応答は、創造的生成、オープンエンドタスク、自己改善トレーニングに不可欠である。
我々は、共通の多様性の指標や、好みの最適化に使用される報酬モデル、より短い出力に対する体系的なバイアスモデル、表現性を制限することを示します。
これを解決するために、長さパリティを維持しながら応答の多様性を向上する長さ制御型自己学習フレームワークであるDiverse, not Short (Diverse-NS)を導入する。
多様性、品質、長さのバランスをとる選好データの生成とフィルタリングによって、Diverse-NSは3000の選好ペアのみを使用して効果的なトレーニングを可能にする。
LLaMA-3.1-8BおよびOlmo-2ファミリーに応用されたDiverse-NSは、語彙的および意味的多様性を大幅に強化する。
本研究は,4つの創造的タスク – ダイバージェント・アソシエーション,ペルソナ・ジェネレーション,オルタナト・ユース,クリエイティブ・ライティング – において,微減や応答品質の向上を伴う多様性の一貫して向上を示す。
驚くべきことに、Olmo-2モデルファミリー (7Bと13B) による実験では、Olmo-2-7Bのような小さなモデルの方が、より大きなモデルに効果的な「多様性の教師」として機能することを示した。
提案手法は,長さバイアスに明示的に対処することにより,モデルをより多様で表現力のある出力へ効率よくプッシュする。
関連論文リスト
- DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing [78.70918589095639]
強化学習(RL)に基づく大規模言語モデル(LLM)の強化は、しばしば出力の多様性を低下させる。
本稿では,半構造化長鎖(CoT)を中心に構成されたRLフレームワークを提案する。
本稿では,多様性の多様性に基づいて,計画段階での分岐を戦略的に導入する横計画分岐手法を提案する。
論文 参考訳(メタデータ) (2026-01-14T16:30:20Z) - More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - Jointly Reinforcing Diversity and Quality in Language Model Generations [64.72289248044514]
大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。
DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-02T17:38:47Z) - Mind the Gap: Conformative Decoding to Improve Output Diversity of Instruction-Tuned Large Language Models [0.0]
本稿では,物語生成作業における「多様性ギャップ」について検討する。
その結果,指導指導による多様性の低下が認められた。
本稿では、より多様なベースモデルを用いてインストラクションモデルを誘導し、出力の多様性を再導入する新しいデコーディング戦略であるコンストラクティブデコーディングを提案する。
論文 参考訳(メタデータ) (2025-07-28T16:04:25Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - NoveltyBench: Evaluating Language Models for Humanlike Diversity [21.6078675947446]
NoveltyBenchは、言語モデルが複数の異なる高品質な出力を生成する能力を評価するために設計されたベンチマークである。
我々は20の指導的言語モデルを評価し、現在の最先端システムは人間の書き手よりも著しく多様性が低いことを発見した。
論文 参考訳(メタデータ) (2025-04-07T16:14:23Z) - Modifying Large Language Model Post-Training for Diverse Creative Writing [12.872333448726595]
創造的な文章生成において、出力の多様性と品質の両方を促進するためのポストトレーニングアプローチについて検討する。
私たちの中核となる考え方は、希少な高品質なインスタンスからの学習を容易にするためのトレーニング目標の逸脱を含めることです。
8Bパラメータの最良のモデルは、最高の命令チューニングモデルに似た出力品質を持ちながら、人間の作成したデータセットとしてオンパー多様性を達成することができる。
論文 参考訳(メタデータ) (2025-03-21T13:21:45Z) - Improving Diversity of Commonsense Generation by Large Language Models via In-Context Learning [28.654890118684957]
生成コモンセンス推論 (Generative Commonsense Reasoning, GCR) は、コモンセンス知識を用いて状況を理解するためのモデルを必要とする。
生成の多様性は、モデルが様々な常識的知識事実を使用する能力を反映しているため、同様に重要である。
そこで本研究では,LLMの世代を多様化し,その品質を保ちながら簡便な手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:52:39Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。