論文の概要: Overton Pluralistic Reinforcement Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.20759v1
- Date: Tue, 24 Feb 2026 10:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.71578
- Title: Overton Pluralistic Reinforcement Learning for Large Language Models
- Title(参考訳): 大規模言語モデルのためのオーバートン多言語強化学習
- Authors: Yu Fu, Seongho Son, Ilija Bogunovic,
- Abstract要約: 本稿では,Overton Pluralismの強化学習フレームワークであるOP-GRPOを紹介する。
明示的なプロンプトやモジュールオーケストレーションなしで、複数の応答を生成する。
実証的な結果は、"小さなモデル、大きな視点のカバレッジ"効果を示している。
- 参考スコア(独自算出の注目度): 15.401087861313547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing alignment paradigms remain limited in capturing the pluralistic nature of human values. Overton Pluralism addresses this gap by generating responses with diverse perspectives from a single query. This paper introduces OP-GRPO (Overton Pluralistic Group Relative Policy Optimization), a reinforcement learning framework for implicit Overton Pluralism that enables a single large language model to produce pluralistic responses without explicit prompting or modular orchestration. Our workflow consists of two main steps. First, similarity estimator training fine-tunes a Sentence Transformer for Overton Pluralism tasks to provide more accurate coverage evaluation of generated responses. Second, OP-GRPO training incorporates this similarity estimator into a dual-reward system designed to ensure both broad coverage of genuine human perspectives and the uniqueness of each perspective, thereby promoting diversity. Empirical results demonstrate a "small models, big perspective coverage" effect. The trained Qwen2.5-3B-Instruct model surpasses a 20B GPT-OSS baseline with a 37.4 percent relative accuracy gain on a Natural Language Inference benchmark, and also outperforms a modular architecture baseline with a 19.1 percent relative improvement. Additional evaluations using GPT-4.1 as a large language model judge further confirm the robustness of the approach.
- Abstract(参考訳): 既存のアライメントパラダイムは、人間の価値の多元的な性質を捉えるのに限られている。
Overton Pluralismは、単一のクエリからさまざまな視点で応答を生成することで、このギャップに対処する。
本稿では,Overton Pluralistic Group Relative Policy Optimization(OP-GRPO,Overton Pluralistic Group Relative Policy Optimization)を提案する。
私たちのワークフローは2つの主要なステップで構成されています。
まず、Overton PluralismタスクのためのSentence Transformerを微調整した類似度推定器を用いて、生成した応答のより正確なカバレッジ評価を行う。
第2に、OP-GRPOトレーニングは、この類似度推定を、真の人間の視点の広範なカバレッジと各視点の独自性の両方を保証するために設計された二重回帰システムに組み入れ、多様性を促進する。
実証的な結果は、"小さなモデル、大きな視点のカバレッジ"効果を示している。
トレーニングされたQwen2.5-3B-インストラクトモデルは、自然言語推論ベンチマークで37.4%の精度で20B GPT-OSSベースラインを超え、19.1%の改善でモジュラーアーキテクチャベースラインを上回っている。
GPT-4.1を大きな言語モデルとして用いたさらなる評価は、アプローチの堅牢性をさらに裏付けるものである。
関連論文リスト
- Towards Low-Resource Alignment to Diverse Perspectives with Sparse Feedback [13.065059683491958]
我々は,多元的デコーディングとモデルステアリングという2つの手法を用いて,低リソース環境下での言語モデルの多元的アライメントを強化することを目指している。
提案手法は,ヘイトスピーチ検出や誤情報検出などのハイテイクタスクにおいて,偽陽性を減少させる。
私たちの研究が多様性の重要性と、言語モデルが微妙な視点に適応できる方法を強調していることを願っています。
論文 参考訳(メタデータ) (2025-10-17T23:06:21Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - UniBERT: Adversarial Training for Language-Universal Representations [2.294953003828613]
UniBERTは、マスク付き言語モデリング、敵対的トレーニング、知識蒸留という3つのコンポーネントを統合する革新的なトレーニングフレームワークを使用する、コンパクトな多言語言語モデルである。
UniBERTは、様々な自然言語処理タスクの競合性能を維持しながら、大規模モデルの計算要求を減らすように設計されている。
論文 参考訳(メタデータ) (2025-03-16T18:44:06Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.6716697906318]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から, モデルが良好に機能することのないことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning [72.46388818127105]
Conditional Language Policy (CLP) は、複数の目的に対して言語モデルを微調整するためのフレームワークである。
CLPは、推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶ。
論文 参考訳(メタデータ) (2024-07-22T16:13:38Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained
Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。
テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文 参考訳(メタデータ) (2023-07-01T15:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。