Fugu-MT 論文翻訳(概要): Overton Pluralistic Reinforcement Learning for Large Language Models

論文の概要: Overton Pluralistic Reinforcement Learning for Large Language Models

arxiv url: http://arxiv.org/abs/2602.20759v1
Date: Tue, 24 Feb 2026 10:39:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.71578
Title: Overton Pluralistic Reinforcement Learning for Large Language Models
Title（参考訳）: 大規模言語モデルのためのオーバートン多言語強化学習
Authors: Yu Fu, Seongho Son, Ilija Bogunovic,
Abstract要約: 本稿では,Overton Pluralismの強化学習フレームワークであるOP-GRPOを紹介する。明示的なプロンプトやモジュールオーケストレーションなしで、複数の応答を生成する。実証的な結果は、"小さなモデル、大きな視点のカバレッジ"効果を示している。
参考スコア（独自算出の注目度）: 15.401087861313547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing alignment paradigms remain limited in capturing the pluralistic nature of human values. Overton Pluralism addresses this gap by generating responses with diverse perspectives from a single query. This paper introduces OP-GRPO (Overton Pluralistic Group Relative Policy Optimization), a reinforcement learning framework for implicit Overton Pluralism that enables a single large language model to produce pluralistic responses without explicit prompting or modular orchestration. Our workflow consists of two main steps. First, similarity estimator training fine-tunes a Sentence Transformer for Overton Pluralism tasks to provide more accurate coverage evaluation of generated responses. Second, OP-GRPO training incorporates this similarity estimator into a dual-reward system designed to ensure both broad coverage of genuine human perspectives and the uniqueness of each perspective, thereby promoting diversity. Empirical results demonstrate a "small models, big perspective coverage" effect. The trained Qwen2.5-3B-Instruct model surpasses a 20B GPT-OSS baseline with a 37.4 percent relative accuracy gain on a Natural Language Inference benchmark, and also outperforms a modular architecture baseline with a 19.1 percent relative improvement. Additional evaluations using GPT-4.1 as a large language model judge further confirm the robustness of the approach.
Abstract（参考訳）: 既存のアライメントパラダイムは、人間の価値の多元的な性質を捉えるのに限られている。 Overton Pluralismは、単一のクエリからさまざまな視点で応答を生成することで、このギャップに対処する。本稿では,Overton Pluralistic Group Relative Policy Optimization(OP-GRPO,Overton Pluralistic Group Relative Policy Optimization)を提案する。私たちのワークフローは2つの主要なステップで構成されています。まず、Overton PluralismタスクのためのSentence Transformerを微調整した類似度推定器を用いて、生成した応答のより正確なカバレッジ評価を行う。第2に、OP-GRPOトレーニングは、この類似度推定を、真の人間の視点の広範なカバレッジと各視点の独自性の両方を保証するために設計された二重回帰システムに組み入れ、多様性を促進する。実証的な結果は、"小さなモデル、大きな視点のカバレッジ"効果を示している。トレーニングされたQwen2.5-3B-インストラクトモデルは、自然言語推論ベンチマークで37.4%の精度で20B GPT-OSSベースラインを超え、19.1%の改善でモジュラーアーキテクチャベースラインを上回っている。 GPT-4.1を大きな言語モデルとして用いたさらなる評価は、アプローチの堅牢性をさらに裏付けるものである。

関連論文リスト

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文参考訳（メタデータ） (2026-03-03T18:36:16Z)
Towards Low-Resource Alignment to Diverse Perspectives with Sparse Feedback [13.065059683491958]
我々は,多元的デコーディングとモデルステアリングという2つの手法を用いて,低リソース環境下での言語モデルの多元的アライメントを強化することを目指している。提案手法は,ヘイトスピーチ検出や誤情報検出などのハイテイクタスクにおいて,偽陽性を減少させる。私たちの研究が多様性の重要性と、言語モデルが微妙な視点に適応できる方法を強調していることを願っています。
論文参考訳（メタデータ） (2025-10-17T23:06:21Z)
Aligning Multilingual Reasoning with Verifiable Semantics from a High-Resource Expert Model [13.788758077632432]
本稿では,セマンティック検証リワードを用いたPivot-based Reinforcement Learningを紹介する。このフレームワークは、ターゲット言語における人間の注釈付きデータの必要性を回避し、多言語推論を強化する。提案手法は,英語と他言語のパフォーマンスギャップを著しく狭めることを示す。
論文参考訳（メタデータ） (2025-09-29T22:03:11Z)
Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文参考訳（メタデータ） (2025-07-08T23:22:34Z)
Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-26T05:50:33Z)
UniBERT: Adversarial Training for Language-Universal Representations [2.294953003828613]
UniBERTは、マスク付き言語モデリング、敵対的トレーニング、知識蒸留という3つのコンポーネントを統合する革新的なトレーニングフレームワークを使用する、コンパクトな多言語言語モデルである。 UniBERTは、様々な自然言語処理タスクの競合性能を維持しながら、大規模モデルの計算要求を減らすように設計されている。
論文参考訳（メタデータ） (2025-03-16T18:44:06Z)
Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.6716697906318]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。評価結果から, モデルが良好に機能することのないことが示唆された。
論文参考訳（メタデータ） (2024-11-08T06:33:22Z)
Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning [72.46388818127105]
Conditional Language Policy (CLP) は、複数の目的に対して言語モデルを微調整するためのフレームワークである。 CLPは、推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶ。
論文参考訳（メタデータ） (2024-07-22T16:13:38Z)
Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文参考訳（メタデータ） (2024-02-17T11:25:26Z)
MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文参考訳（メタデータ） (2023-07-01T15:10:01Z)
Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文参考訳（メタデータ） (2022-05-10T19:32:20Z)
Multi-Task and Multi-Corpora Training Strategies to Enhance Argumentative Sentence Linking Performance [4.374417345150659]
マルチタスクとマルチコーパスのトレーニング戦略を用いて,最先端のリンクモデルを改善する。我々の補助的なタスクは、モデルが議論構造における各文の役割を学ぶのに役立ちます。英語と外国語の学習者によるエッセイの実験は、どちらの戦略もモデルの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2021-09-27T14:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。