論文の概要: Scaling Reinforcement Learning for Content Moderation with Large Language Models
- arxiv url: http://arxiv.org/abs/2512.20061v1
- Date: Tue, 23 Dec 2025 05:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.757881
- Title: Scaling Reinforcement Learning for Content Moderation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたコンテンツモデレーションのための拡張学習
- Authors: Hamed Firooz, Rui Liu, Yuchen Lu, Zhenyu Hou, Fangzhou Xiong, Xiaoyang Zhang, Changshu Jian, Zhicheng Zhu, Jiayuan Ma, Jacob Tao, Chaitali Gupta, Xiaochang Peng, Shike Mei, Hang Cui, Yang Qin, Shuo Tang, Jason Gaedtke, Arpit Mittal,
- Abstract要約: 本稿では,コンテンツ分類におけるスケーリング強化学習の総合的研究について述べる。
RLは複雑なポリシーに基づく推論を必要とするタスクの性能を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 16.516137166093696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content moderation at scale remains one of the most pressing challenges in today's digital ecosystem, where billions of user- and AI-generated artifacts must be continuously evaluated for policy violations. Although recent advances in large language models (LLMs) have demonstrated strong potential for policy-grounded moderation, the practical challenges of training these systems to achieve expert-level accuracy in real-world settings remain largely unexplored, particularly in regimes characterized by label sparsity, evolving policy definitions, and the need for nuanced reasoning beyond shallow pattern matching. In this work, we present a comprehensive empirical investigation of scaling reinforcement learning (RL) for content classification, systematically evaluating multiple RL training recipes and reward-shaping strategies-including verifiable rewards and LLM-as-judge frameworks-to transform general-purpose language models into specialized, policy-aligned classifiers across three real-world content moderation tasks. Our findings provide actionable insights for industrial-scale moderation systems, demonstrating that RL exhibits sigmoid-like scaling behavior in which performance improves smoothly with increased training data, rollouts, and optimization steps before gradually saturating. Moreover, we show that RL substantially improves performance on tasks requiring complex policy-grounded reasoning while achieving up to 100x higher data efficiency than supervised fine-tuning, making it particularly effective in domains where expert annotations are scarce or costly.
- Abstract(参考訳): 数十億ものユーザ生成とAI生成のアーティファクトが、ポリシー違反に対して継続的に評価されなければならない、今日のデジタルエコシステムにおいて、大規模なコンテンツモデレーションは依然として最も急進的な課題の1つだ。
大規模言語モデル (LLM) の最近の進歩は、ポリシーに基づくモデレーションの可能性を強く示してきたが、実世界の設定において専門家レベルの精度を達成するためにこれらのシステムを訓練する実践的課題は、特にラベルの空間性、ポリシー定義の進化、浅いパターンマッチングを超えたニュアンスな推論の必要性によって特徴づけられる体制において、ほとんど解明されていないままである。
本研究では、コンテンツ分類のための拡張強化学習(RL)の総合的研究を行い、複数のRLトレーニングレシピと報酬形成戦略(検証可能な報酬を含む)を体系的に評価し、LLM-as-judgeフレームワークを用いて汎用言語モデルを3つの実世界のコンテンツモデレーションタスクにまたがる特殊かつポリシーに整合した分類器に変換する。
以上の結果から,RLはシグモイド様のスケーリング挙動を示し,トレーニングデータ,ロールアウト,最適化のステップを徐々に飽和させる前に,性能が円滑に向上することを示した。
さらに、RLは、教師付き微調整よりも最大100倍高いデータ効率を達成しつつ、複雑なポリシーに基づく推論を必要とするタスクの性能を大幅に向上させ、エキスパートアノテーションが不足またはコストのかかる領域で特に有効であることを示す。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective [52.38531288378491]
強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた
本研究では,RLの利点と制約をグラフに基づく抽出により検討する。
我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
論文 参考訳(メタデータ) (2025-09-26T17:39:48Z) - LLM-Driven Policy Diffusion: Enhancing Generalization in Offline Reinforcement Learning [23.628360655654507]
強化学習(RL)はその強力な意思決定能力で知られ、様々な現実のシナリオに広く適用されている。
オフラインデータの制限のため、RLエージェントは新しいタスクや環境に一般化するのに苦労することが多い。
LLM-Driven Policy Diffusion (LLMDPD) は,タスク固有のプロンプトを用いたオフラインRLの一般化を促進する新しい手法である。
論文 参考訳(メタデータ) (2025-08-30T04:02:33Z) - Generalization vs. Memorization in Autoregressive Deep Learning: Or, Examining Temporal Decay of Gradient Coherence [0.1286280695561924]
本研究では, 自己回帰型PDEが, 多様な物理シナリオから得られる情報を同化・伝播する様子を特徴付けるために, 影響関数形式を適用した。
改良されたサロゲートの設計に関する実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-08-18T20:29:34Z) - Leveraging Genetic Algorithms for Efficient Demonstration Generation in Real-World Reinforcement Learning Environments [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、特定の実世界の産業応用において大きな可能性を証明している。
本研究では,遺伝的アルゴリズム(GA)をRL性能向上のメカニズムとして活用することを検討した。
本稿では,GAによる専門家による実証実験を政策学習の強化に活用する手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T14:04:17Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。