論文の概要: RLNVR: Reinforcement Learning from Non-Verified Real-World Rewards
- arxiv url: http://arxiv.org/abs/2508.12165v1
- Date: Sat, 16 Aug 2025 21:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.597917
- Title: RLNVR: Reinforcement Learning from Non-Verified Real-World Rewards
- Title(参考訳): RLNVR: 証明されていない実世界からの強化学習
- Authors: Rohit Krishnan, Jon Evans,
- Abstract要約: RLNVRは、人間の明示的な検証を必要とせず、ノイズの多い現実世界のフィードバック信号を使って言語モデルをトレーニングするためのフレームワークである。
本稿では,RLNVRとGSPOを組み合わせた実践的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces RLNVR (Reinforcement Learning from Non-Verified Rewards), a framework for training language models using noisy, real-world feedback signals without requiring explicit human verification. Traditional RLHF requires expensive, verified reward signals that are impractical in many real-world domains. RLNVR addresses this challenge through baseline normalization and semantic similarity-based reward transfer. We demonstrate RLNVR through Walter, a prototype system that optimizes social media content generation using actual engagement data from Bluesky. Our experimental results show significant improvements in content quality and training stability, with comprehensive evaluation planned for future work. Positioning: We present a practical framework that combines RLNVR with GSPO (Group Sequence Policy Optimization) and an optional UED (Unsupervised Environment Design) curriculum to improve stability and diversity under noisy, implicit rewards. To our knowledge, combining GSPO-style normalization with a UED-style curriculum for LLM content generation from implicit social engagement has not been previously documented in this applied setting; we frame this as an applied integration rather than a new algorithm.
- Abstract(参考訳): 本稿では,雑音の多い実世界のフィードバック信号を用いて言語モデルを訓練するフレームワークであるRLNVR(Reinforcement Learning from Non-Verified Rewards)を紹介する。
従来のRLHFは、多くの現実世界のドメインで非現実的な高価な、検証済みの報酬信号を必要とする。
RLNVRはベースライン正規化とセマンティック類似性に基づく報酬伝達を通じてこの問題に対処する。
我々は、Blueskyの実際のエンゲージメントデータを用いて、ソーシャルメディアコンテンツ生成を最適化するプロトタイプシステムであるWalterを通してRLNVRを実証する。
実験の結果,コンテンツ品質とトレーニングの安定性が著しく向上し,今後の作業に向けた総合的な評価が計画されている。
位置付け: RLNVR と GSPO (Group Sequence Policy Optimization) とオプションの UED (Unsupervised Environment Design) カリキュラムを組み合わせることで,ノイズや暗黙的な報酬の下での安定性と多様性を向上させるための実践的フレームワークを提案する。
我々の知る限り、GSPOスタイルの正規化と暗黙のソーシャルエンゲージメントからLLMコンテンツを生成するUEDスタイルのカリキュラムを組み合わせることは、これまでこの適用環境では文書化されていなかった。
関連論文リスト
- Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [8.143110220871614]
我々は、構造化されたチェックリストスタイルのルーリックを解釈可能な報酬信号として利用するフレームワークであるRaRを紹介する。
ごみを構造化された報酬信号として扱うことにより、RaRはより小規模の審査モデルで人間の嗜好に適合できることを示す。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - Enhancing VICReg: Random-Walk Pairing for Improved Generalization and Better Global Semantics Capturing [9.143957433075808]
SAG-VICRegはVICReg上に構築され、新しいトレーニング技術が組み込まれている。
SAG-VICRegは、さまざまな最先端SSLベースラインをマッチングまたは超越しながら、一般化の課題に効果的に対処する。
本稿では,ラベルを必要とせず,グローバルなデータ構造に対する標準評価手法や説明を補完する,埋め込みのための新たなスタンドアロン評価指標を提案する。
論文 参考訳(メタデータ) (2025-06-22T17:17:02Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Reward Generation via Large Vision-Language Model in Offline Reinforcement Learning [19.48826538310603]
オフライン強化学習(RL)では、固定データセットからの学習が、環境とのリアルタイムインタラクションが高価またはリスクの高いドメインに対して、有望なソリューションを提供する。
人間の関与なしにオフラインデータから報酬を生成するために,RG-VLM(Large Vision-Language Models)によるリワード生成を提案する。
論文 参考訳(メタデータ) (2025-04-03T07:11:18Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。
離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。