論文の概要: Quality-constrained Entropy Maximization Policy Optimization for LLM Diversity
- arxiv url: http://arxiv.org/abs/2602.15894v1
- Date: Wed, 11 Feb 2026 10:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.371677
- Title: Quality-constrained Entropy Maximization Policy Optimization for LLM Diversity
- Title(参考訳): LLM多様性のための品質制約付きエントロピー最大化政策最適化
- Authors: Haihui Pan, Yuzhong Hong, Shaoke Lv, Junwei Bao, Hongfei Jiang, Yang Song,
- Abstract要約: 品質制約付きエントロピー最大化ポリシー最適化(QEMPO)を提案する。
QEMPOは、出力品質を確保しつつ、ポリシーの出力エントロピーを最大化することを目的としている。
実験により、QEMPOは出力の多様性を改善しつつ、RLHFに匹敵する性能を達成できることを確認した。
- 参考スコア(独自算出の注目度): 8.344720919316236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research indicates that while alignment methods significantly improve the quality of large language model(LLM) outputs, they simultaneously reduce the diversity of the models' output. Although some methods have been proposed to enhance LLM output diversity, they often come at the cost of reduced performance. In this work, we first theoretically demonstrate that the alignment task can be decomposed into two distributions: quality and diversity. To enhance the diversity of LLM outputs while ensuring quality, we propose the Quality-constrained Entropy Maximization Policy Optimization (QEMPO). QEMPO aims to maximize the output entropy of the policy while ensuring output quality. By adding different constraints to QEMPO, we obtain different policies. To optimize policies, we propose both online and offline training methods. Experiments validate that QEMPO achieves performance comparable to or even better than RLHF while improving output diversity.
- Abstract(参考訳): 近年の研究では、アライメント手法は大規模言語モデル(LLM)の出力の品質を大幅に改善する一方で、モデルの出力の多様性を同時に低下させることが示されている。
LLM出力の多様性を高めるためにいくつかの手法が提案されているが、性能低下のコストがかかることが多い。
本研究ではまず,アライメントタスクが品質と多様性の2つの分布に分解可能であることを理論的に示す。
品質を確保しつつLCM出力の多様性を高めるため,QEMPO(Quality-Constrained Entropy Maximization Policy Optimization)を提案する。
QEMPOは、出力品質を確保しつつ、ポリシーの出力エントロピーを最大化することを目的としている。
QEMPOに異なる制約を加えることで、異なるポリシーを得る。
ポリシーを最適化するために、オンラインとオフラインの両方のトレーニング手法を提案する。
実験により、QEMPOは出力の多様性を改善しつつ、RLHFに匹敵する性能を達成できることを確認した。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Can Linear Probes Measure LLM Uncertainty? [0.0]
不確実性定量化(UQ)は、自動意思決定などにおける大規模言語モデル(LLM)の信頼性向上のための重要な側面である。
ベイズ統計による原理的アプローチをとると、最も単純なモデル、すなわち線形回帰を利用するにもかかわらず、性能が向上することを示す。
分散特性の疎結合を同定することにより, LLMのグローバル不確実性レベルを推定し, 効率的なUQ手法を提案する。
論文 参考訳(メタデータ) (2025-10-05T09:14:57Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Post-training Large Language Models for Diverse High-Quality Responses [32.92680825196664]
強化学習 (Reinforcement Learning, RL) は,大規模言語モデル (LLM) の訓練後に一般的な手法として登場した。
決定点プロセス(DPP)に基づくDQO(Diversity Quality Optimization)という新しいトレーニング手法を提案する。
提案手法では,各プロンプトに対して応答群をサンプリングし,次にカーネルベースの類似度行列の行列式を用いて,これらの応答の埋め込みによって分散される体積として多様性を測定する。
論文 参考訳(メタデータ) (2025-09-05T03:47:06Z) - Jointly Reinforcing Diversity and Quality in Language Model Generations [64.72289248044514]
大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。
DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-02T17:38:47Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。