Fugu-MT 論文翻訳(概要): DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data

論文の概要: DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data

arxiv url: http://arxiv.org/abs/2505.15074v1
Date: Wed, 21 May 2025 03:43:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:58.852555
Title: DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data
Title（参考訳）: DisCOはスケールのバランスをとる:不均衡データに基づく適応的ドメインと難易度を考慮した強化学習
Authors: Yuhang Zhou, Jing Zhu, Shengyi Qian, Zhuokai Zhao, Xiyao Wang, Xiaoyu Liu, Ming Li, Paiheng Xu, Wei Ai, Furong Huang,
Abstract要約: 本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
参考スコア（独自算出の注目度）: 29.06340707914799
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly aligned with human preferences through Reinforcement Learning from Human Feedback (RLHF). Among RLHF methods, Group Relative Policy Optimization (GRPO) has gained attention for its simplicity and strong performance, notably eliminating the need for a learned value function. However, GRPO implicitly assumes a balanced domain distribution and uniform semantic alignment across groups - assumptions that rarely hold in real-world datasets. When applied to multi-domain, imbalanced data, GRPO disproportionately optimizes for dominant domains, neglecting underrepresented ones and resulting in poor generalization and fairness. We propose Domain-Informed Self-Consistency Policy Optimization (DISCO), a principled extension to GRPO that addresses inter-group imbalance with two key innovations. Domain-aware reward scaling counteracts frequency bias by reweighting optimization based on domain prevalence. Difficulty-aware reward scaling leverages prompt-level self-consistency to identify and prioritize uncertain prompts that offer greater learning value. Together, these strategies promote more equitable and effective policy learning across domains. Extensive experiments across multiple LLMs and skewed training distributions show that DISCO improves generalization, outperforms existing GRPO variants by 5% on Qwen3 models, and sets new state-of-the-art results on multi-domain alignment benchmarks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間からのフィードバックからの強化学習(RLHF)を通じて、人間の嗜好に適合する傾向にある。 RLHF法の中で、グループ相対ポリシー最適化(GRPO)は、その単純さと強力な性能、特に学習値関数の必要性を排除して注目を集めている。しかし、GRPOは暗黙的に、グループ間のバランスの取れたドメイン分布と一様セマンティックアライメントを仮定する。マルチドメイン、不均衡なデータに適用すると、GRPOは支配的ドメインに対して不均等に最適化し、不足しているドメインを無視し、一般化と公正性を損なう。本稿では,グループ間不均衡に対処するGRPOの原則拡張であるDISCOを提案する。ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。これらの戦略は、ドメイン間のより公平で効果的な政策学習を促進する。複数のLLMおよびスキュードトレーニング分布にわたる広範囲な実験により、disCOは一般化を改善し、Qwen3モデルで既存のGRPO変種を5%上回り、マルチドメインアライメントベンチマークで新しい最先端結果を設定する。

関連論文リスト

Adversarial Data Augmentation for Single Domain Generalization via Lyapunov Exponent-Guided Optimization [6.619253289031494]
単一ドメインの一般化は、単一のソースドメインのみを使用して、対象ドメインを見えないように一般化できるモデルを開発することを目的としている。 Lyapunov Exponent (LE) を用いた動的システム理論に基づく新しい最適化手法であるLEAwareSGDを提案する。 PACS、OfficeHome、DomainNetの実験は、LEAwareSGDがかなりの一般化の利益をもたらすことを示した。
論文参考訳（メタデータ） (2025-07-06T09:03:08Z)
Global Variational Inference Enhanced Robust Domain Adaptation [7.414646586981638]
本稿では,構造を意識したクロスドメインアライメントを実現するために,変分推論による連続的,クラス条件のグローバルな事前学習フレームワークを提案する。 GVI-DAは、潜在特徴再構成によるドメインギャップを最小化し、ランダムサンプリングによるグローバルコードブック学習を用いて後部崩壊を緩和する。低信頼の擬似ラベルを捨て、信頼性の高いターゲットドメインサンプルを生成することにより、ロバスト性をさらに向上する。
論文参考訳（メタデータ） (2025-07-04T04:43:23Z)
On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文参考訳（メタデータ） (2025-05-24T18:58:51Z)
Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文参考訳（メタデータ） (2025-05-22T17:59:49Z)
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-18T11:08:32Z)
Advancing Open-Set Domain Generalization Using Evidential Bi-Level Hardest Domain Scheduler [45.71475375161575]
Open-Set Domain Generalizationでは、新しいデータ外観(ドメイン)とオープンセット条件の両方でモデルが公開される。適応型ドメインスケジューラを実現するために,Evidential Bi-Level Hardest Domain Scheduler (EBiL-HaDS)を提案する。
論文参考訳（メタデータ） (2024-09-26T05:57:35Z)
Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Group Robust Preference Optimization in Reward-free RLHF [23.622835830345725]
そこで本研究では,大規模言語モデルと各グループの嗜好を密に整合させる新しいグループロバスト選好最適化法を提案する。これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。我々は,最悪のパフォーマンス群の性能向上,グループ間の損失不均衡の低減,確率精度の向上について検討した。
論文参考訳（メタデータ） (2024-05-30T17:50:04Z)
Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文参考訳（メタデータ） (2022-08-18T06:42:49Z)
Self-balanced Learning For Domain Generalization [64.99791119112503]
ドメインの一般化は、モデルが未知の統計を持つ対象のドメインに一般化できるように、マルチドメインのソースデータの予測モデルを学ぶことを目的としている。既存のアプローチのほとんどは、ソースデータがドメインとクラスの両方の観点からバランスよく調整されているという前提の下で開発されている。本稿では,多領域ソースデータの分布の違いによるバイアスを軽減するために,損失の重み付けを適応的に学習する自己均衡型領域一般化フレームワークを提案する。
論文参考訳（メタデータ） (2021-08-31T03:17:54Z)
Learning Invariant Representations and Risks for Semi-supervised Domain Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文参考訳（メタデータ） (2020-10-09T15:42:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。