論文の概要: Instructions are all you need: Self-supervised Reinforcement Learning for Instruction Following
- arxiv url: http://arxiv.org/abs/2510.14420v1
- Date: Thu, 16 Oct 2025 08:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.777527
- Title: Instructions are all you need: Self-supervised Reinforcement Learning for Instruction Following
- Title(参考訳): インストラクションは必要なもの - インストラクションフォローのための自己教師型強化学習
- Authors: Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu,
- Abstract要約: 言語モデルは、現実世界のアプリケーションにとって重要なマルチ制約命令に従うのに苦労することが多い。
本稿では,外部監督に依存しないラベルフリーの自己監督型強化学習フレームワークを提案する。
本稿では,厳密な報酬問題に対処するために,制約分解戦略と効率的な制約ワイドバイナリ分類を導入する。
- 参考スコア(独自算出の注目度): 58.60470643433354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models often struggle to follow multi-constraint instructions that are crucial for real-world applications. Existing reinforcement learning (RL) approaches suffer from dependency on external supervision and sparse reward signals from multi-constraint tasks. We propose a label-free self-supervised RL framework that eliminates dependency on external supervision by deriving reward signals directly from instructions and generating pseudo-labels for reward model training. Our approach introduces constraint decomposition strategies and efficient constraint-wise binary classification to address sparse reward challenges while maintaining computational efficiency. Experiments show that our approach generalizes well, achieving strong improvements across 3 in-domain and 5 out-of-domain datasets, including challenging agentic and multi-turn instruction following. The data and code are publicly available at https://github.com/Rainier-rq/verl-if
- Abstract(参考訳): 言語モデルは、現実世界のアプリケーションにとって重要なマルチ制約命令に従うのに苦労することが多い。
既存の強化学習(RL)アプローチは、外部の監督やマルチ制約タスクからの報酬信号のスパースに依存している。
本稿では,報酬信号を直接命令から導き出し,報酬モデルトレーニングのための擬似ラベルを生成することにより,外部監視への依存を解消するラベルフリーな自己監督型RLフレームワークを提案する。
本手法では,計算効率を維持しつつ,スパース報酬問題に対処するため,制約分解戦略と効率的な制約ワイドバイナリ分類を導入する。
実験の結果,本手法は3つのドメイン内および5つのドメイン外のデータセットに対して強力な改善を実現し,エージェント命令やマルチターン命令に挑戦する。
データとコードはhttps://github.com/Rainier-rq/verl-ifで公開されている。
関連論文リスト
- Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following [37.69688837528397]
推論モデルは複雑な問題解決に優れるが、推論能力とそれに続く命令の間のトレードオフを示す。
本稿では,推論モデルの内部信号を利用した自己教師付きRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:48:59Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Robust Disentanglement of a Few Factors at a Time [5.156484100374058]
変分オートエンコーダ(VAE)の整合性向上のための人口ベーストレーニング(PBT)を導入する。
PBT-VAEトレーニングでは、教師なしのモデルスコアとしてUnsupervised Disentanglement Ranking (UDR)を使用し、この方法でトレーニングされたモデルが、生成因子のサブセットのみを一貫して切り離す傾向を示す。
複数のデータセットとメトリクスをまたいで、最先端の教師なしのアンハンジメント性能とロバストネスを著しく改善したことを示す。
論文 参考訳(メタデータ) (2020-10-26T12:34:23Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。