論文の概要: Bootstrapping Post-training Signals for Open-ended Tasks via Rubric-based Self-play on Pre-training Text
- arxiv url: http://arxiv.org/abs/2604.20051v1
- Date: Tue, 21 Apr 2026 23:21:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.886066
- Title: Bootstrapping Post-training Signals for Open-ended Tasks via Rubric-based Self-play on Pre-training Text
- Title(参考訳): プレトレーニングテキスト上でのルーブリックベースのセルフプレイによるオープンエンドタスクのブートストラップ後信号
- Authors: Chengyu Huang, Sheng-Yen Chou, Zhengxin Zhang, Claire Cardie,
- Abstract要約: 大規模言語モデル(LLM)をトレーニングするための有望なパラダイムとして、セルフプレイが登場した。
POPは,同一のLLMを用いて,各例の入力出力ペアとともに,評価ルーリックを合成するセルフプレイフレームワークである。
Qwen-2.5-7Bでは、POPは訓練済みモデルと訓練済みモデルの両方のパフォーマンスを異なるタスクで向上させる。
- 参考スコア(独自算出の注目度): 14.278605706996474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-play has recently emerged as a promising paradigm to train Large Language Models (LLMs). In self-play, the target LLM creates the task input (e.g., ask a question), which it then addresses itself by producing a task output (e.g., give an answer). A reward model evaluates the output, and the rewards are then used to train the LLM, typically via Reinforcement Learning (RL). Self-play incurs minimal supervision costs, and this is especially helpful for post-training LLMs, which require high-quality input-output pairs that traditionally have to be written by humans or expensive proprietary models. However, existing work explores self-play only for verifiable tasks such as math and coding. Instead, we seek to extend it to more realistic open-ended tasks. In particular, we propose POP, a self-play framework that uses the same LLM to synthesize evaluation rubrics, along with input-output pairs, for each example. The rubric is then used to evaluate outputs and train the model. We further ground the framework on a content-rich pretraining corpus to (1) ensure a generation-verification gap and reduce reward hacking, and (2) prevent mode collapse. On Qwen-2.5-7B, POP increases performance of both pretrained and instruction-tuned models, across different tasks ranging from long-form Healthcare QA to creative writing and instruction following.
- Abstract(参考訳): 最近、Large Language Models(LLM)をトレーニングするための有望なパラダイムとしてセルフプレイが登場した。
セルフプレイでは、ターゲットLLMはタスク入力(例えば質問)を生成し、タスク出力(例えば回答)を生成してそれ自身に対処する。
報酬モデルは、出力を評価し、報酬は、通常、強化学習(RL)を介して、LLMのトレーニングに使用される。
セルフプレイは最小限の監督コストを発生させるため、従来の人間や高価なプロプライエタリなモデルで書かなければならない高品質なインプット・アウトプット・ペアを必要とするLLMの訓練後において特に有用である。
しかし、既存の研究は、数学やコーディングのような検証可能なタスクにのみセルフプレイを探求している。
代わりに、より現実的なオープンエンドタスクに拡張しようとしています。
特に,同一のLLMを用いた自己再生フレームワークであるPOPを提案し,各例について,入力出力ペアとともに評価ルーリックを合成する。
その後、ルーブリックを使用して出力を評価し、モデルをトレーニングする。
さらに,コンテンツに富む事前学習コーパスを基盤として,(1)生成検証ギャップの確保と報奨ハッキングの低減,(2)モード崩壊の防止を図る。
Qwen-2.5-7Bでは、POPはトレーニング済みモデルとトレーニング済みモデルの両方のパフォーマンスを、長期医療のQAからクリエイティブな文章作成、後続のインストラクションまで、さまざまなタスクで向上させる。
関連論文リスト
- LLM2Vec-Gen: Generative Embeddings from Large Language Models [38.742293185880364]
埋め込みモデルを訓練するための,新たな自己教師型アプローチを提案する。
入力を符号化するのではなく、モデルの潜在的な応答を表現することを学ぶ。
有害なコンテンツ検索の43.2%の削減と、埋め込みタスクの推論能力の29.3%の改善を観察する。
論文 参考訳(メタデータ) (2026-03-11T15:58:47Z) - Incentivizing LLMs to Self-Verify Their Answers [22.387551134333084]
本稿では,大規模言語モデルにインセンティブを与え,自己検証を行うフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
複数の数学的推論ベンチマークの実験は、我々のモデルがトレーニング後の性能を改善するだけでなく、効果的なテスト時間スケーリングを可能にすることを示している。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Automating Code-Related Tasks Through Transformers: The Impact of
Pre-training [15.129062963782005]
コード関連タスクの自動化において,事前学習対象が変圧器の性能に及ぼす影響について検討する。
i)ソフトウェア工学(SE)の文献に通常採用される汎用的な事前学習目標と,(ii)特定のコード関連タスクに適した事前学習目標の両方を用いて,32の変圧器を事前訓練する。
論文 参考訳(メタデータ) (2023-02-08T13:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。