論文の概要: BinaryPPO: Efficient Policy Optimization for Binary Classification
- arxiv url: http://arxiv.org/abs/2602.02708v1
- Date: Mon, 02 Feb 2026 19:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.027833
- Title: BinaryPPO: Efficient Policy Optimization for Binary Classification
- Title(参考訳): BinaryPPO: バイナリ分類のための効率的なポリシー最適化
- Authors: Punya Syon Pandey, Zhijing Jin,
- Abstract要約: Supervised Fine-tuning (SFT) はバイナリ分類タスクの標準的なアプローチである。
報奨学習問題としてバイナリ分類を再構成するフレームワークであるBinaryPPOを紹介する。
バイナリPPOの精度は40-60ポイント向上し、最大99%まで向上し、ほぼ監督されたベースラインとなる。
- 参考スコア(独自算出の注目度): 10.249166265785686
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Supervised fine-tuning (SFT) is the standard approach for binary classification tasks such as toxicity detection, factuality verification, and causal inference. However, SFT often performs poorly in real-world settings with label noise, class imbalance, or sparse supervision. We introduce BinaryPPO, an offline reinforcement learning large language model (LLM) framework that reformulates binary classification as a reward maximization problem. Our method leverages a variant of Proximal Policy Optimization (PPO) with a confidence-weighted reward function that penalizes uncertain or incorrect predictions, enabling the model to learn robust decision policies from static datasets without online interaction. Across eight domain-specific benchmarks and multiple models with differing architectures, BinaryPPO improves accuracy by 40-60 percentage points, reaching up to 99%, substantially outperforming supervised baselines. We provide an in-depth analysis of the role of reward shaping, advantage scaling, and policy stability in enabling this improvement. Overall, we demonstrate that confidence-based reward design provides a robust alternative to SFT for binary classification. Our code is available at https://github.com/psyonp/BinaryPPO.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、毒性検出、事実性検証、因果推論などのバイナリ分類タスクの標準的なアプローチである。
しかし、SFTは、ラベルノイズ、クラス不均衡、スパース・インスペクタリジェンスなど、実世界の環境ではよく機能しない。
報奨最大化問題としてバイナリ分類を再構成する,オフライン強化学習型大規模言語モデル(LLM)フレームワークであるBinaryPPOを紹介する。
提案手法では,信頼度重み付けされた報酬関数を用いて,不確実あるいは誤った予測をペナルティ化し,オンラインインタラクションを伴わない静的データセットからロバストな決定ポリシーを学習することができる。
ドメイン固有の8つのベンチマークと異なるアーキテクチャを持つ複数のモデルに対して、BinaryPPOは40~60パーセントの精度を向上し、最大99%に達し、教師付きベースラインを大幅に上回っている。
我々は、この改善を実現する上での報酬形成、有利なスケーリング、および政策安定性の役割について、詳細な分析を行う。
全体としては、信頼に基づく報酬設計が二項分類のためのSFTの頑健な代替となることを実証する。
私たちのコードはhttps://github.com/psyonp/BinaryPPO.orgから入手可能です。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Safe, Efficient, and Robust Reinforcement Learning for Ranking and Diffusion Models [2.231476498067998]
論文は、強化学習手法が安全で、サンプル効率が高く、堅牢であるようにどのように設計できるかを調査する。
コンテキスト帯域RLの統一的な視点から判断されたこの作業は、ランキングとレコメンデーション、テキストから画像への拡散モデルという2つの主要なアプリケーション領域に対処する。
論文 参考訳(メタデータ) (2025-10-17T08:37:38Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - BNPO: Beta Normalization Policy Optimization [9.60676665395923]
動的に更新されたパラメータを持つベータ分布を用いて報酬を適応的に正規化する新しいポリシー最適化手法を提案する。
本稿では,BNPOの分散還元特性を理論的に証明し,二値報酬設定の下でREINFORCEとGRPOの両方を一般化することを示す。
実験の結果,BNPOは推論タスクにおけるポリシー最適化手法の最先端性能を達成できることを確認した。
論文 参考訳(メタデータ) (2025-06-03T13:28:57Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Deep Reinforcement Learning for Inventory Networks: Toward Reliable Policy Optimization [2.9016349714298157]
我々は、在庫管理が深層強化学習(DRL)の信頼性向上にユニークな機会をもたらすと論じている。
1つ目はHendsight Differentiable Policy Optimization (HDPO)であり、これはオフラインのカウンターファクトシミュレーションからパスワイズ勾配を用いてポリシー性能を直接かつ効率的に最適化する。
グラフニューラルネットワーク(GNN)を,サプライチェーン構造を符号化する自然な帰納バイアスとして利用し,最適かつほぼ最適なポリシを2つの理論的設定で表現できること,および6つの多様な在庫問題におけるデータ要求の低減を実証的に示す。
論文 参考訳(メタデータ) (2023-06-20T02:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。