論文の概要: BaNEL: Exploration Posteriors for Generative Modeling Using Only Negative Rewards
- arxiv url: http://arxiv.org/abs/2510.09596v1
- Date: Fri, 10 Oct 2025 17:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.51083
- Title: BaNEL: Exploration Posteriors for Generative Modeling Using Only Negative Rewards
- Title(参考訳): BaNEL: ネガティブリワードのみを用いた生成モデリングのための探索ポスター
- Authors: Sangyun Lee, Brandon Amos, Giulia Fanti,
- Abstract要約: BaNELは、失敗した試みのみを使用してモデルを訓練した後、報酬評価(NRE)の数を最小限にするアルゴリズムである。
複数のスパース・リワードタスクにおいて1つのサンプルを観察することなく,BaNELはモデル性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 25.999630323726464
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Today's generative models thrive with large amounts of supervised data and informative reward functions characterizing the quality of the generation. They work under the assumptions that the supervised data provides knowledge to pre-train the model, and the reward function provides dense information about how to further improve the generation quality and correctness. However, in the hardest instances of important problems, two problems arise: (1) the base generative model attains a near-zero reward signal, and (2) calls to the reward oracle are expensive. This setting poses a fundamentally different learning challenge than standard reward-based post-training. To address this, we propose BaNEL (Bayesian Negative Evidence Learning), an algorithm that post-trains the model using failed attempts only, while minimizing the number of reward evaluations (NREs). Our method is based on the idea that the problem of learning regularities underlying failures can be cast as another, in-loop generative modeling problem. We then leverage this model to assess whether new data resembles previously seen failures and steer the generation away from them. We show that BaNEL can improve model performance without observing a single successful sample on several sparse-reward tasks, outperforming existing novelty-bonus approaches by up to several orders of magnitude in success rate, while using fewer reward evaluations.
- Abstract(参考訳): 今日の生成モデルは、大量の教師付きデータと、世代の品質を特徴付ける情報的報酬関数で成長している。
彼らは、教師付きデータがモデルを事前訓練するための知識を提供するという仮定の下で働き、報酬関数は、生成の品質と正確性をさらに改善する方法に関する密集した情報を提供する。
しかし,重要な問題の最も困難な事例では,(1)基本生成モデルがほぼゼロの報酬信号が得られること,(2)報酬託への呼び出しが高価であること,の2つの問題が生じる。
この設定は、通常の報酬ベースのポストトレーニングと根本的に異なる学習課題を引き起こします。
そこで本稿では,失敗した試みのみを用いてモデルを訓練するアルゴリズムであるBaNEL(Bayesian Negative Evidence Learning)を提案する。
本手法は,障害の根底にある正規性を学習する問題を,ループ内生成モデリングの別の問題として捉えることができるという考え方に基づいている。
そして、このモデルを利用して、新しいデータが以前見られた障害に類似しているかどうかを評価し、世代を彼らから遠ざけます。
BaNELは、複数のスパース・リワードタスクにおいて1つの成功例を観察することなくモデル性能を向上させることができ、既存のノベルティ・ボンドアプローチを最大数桁の成功率で上回り、報酬評価を少なくする。
関連論文リスト
- GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation [7.0471949371778795]
本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。
最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。
第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
論文 参考訳(メタデータ) (2021-06-08T03:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。