論文の概要: MemReward: Graph-Based Experience Memory for LLM Reward Prediction with Limited Labels
- arxiv url: http://arxiv.org/abs/2603.19310v1
- Date: Fri, 13 Mar 2026 18:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.76878
- Title: MemReward: Graph-Based Experience Memory for LLM Reward Prediction with Limited Labels
- Title(参考訳): MemReward: 限定ラベルを用いたLLMリワード予測のためのグラフベースエクスペリエンスメモリ
- Authors: Tianyang Luo, Tao Feng, Zhigang Hua, Yan Xie, Shuang Yang, Ge Liu, Jiaxuan You,
- Abstract要約: グラフベースのエクスペリエンスメモリフレームワークであるMemRewardを紹介する。
最初のLCMポリシーは、各クエリに対するロールアウトを生成し、それぞれが思考プロセスと最終回答から構成される。
ラベル付きノードでトレーニングされたGNNは、オンライン最適化中にラベルなしのロールアウトに対して報酬を伝達する。
- 参考スコア(独自算出の注目度): 32.633330452668766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) for complex reasoning via reinforcement learning requires reward labels that specify whether the generated rollouts are correct. However, obtaining reward labels at scale often requires expensive human labeling or time-consuming verification procedures; for instance, evaluating mathematical proofs demands expert review, while open-ended question answering lacks definitive ground truth. When reward labels are limited, the effectiveness of reinforcement learning fine-tuning is constrained by the scarcity of reward labels. We introduce MemReward, a graph-based experience memory framework: an initial LLM policy generates rollouts for each query, each comprising a thinking process and a final answer, and these rollouts are stored as experience memory. Queries, thinking processes, and answers form nodes in a heterogeneous graph with similarity and structural edges; a GNN trained on labeled nodes propagates rewards to unlabeled rollouts during online optimization. Experiments on Qwen2.5-3B and 1.5B across mathematics, question answering, and code generation demonstrate that MemReward, with only 20% labels, achieves 97.3% of Oracle performance on 3B and 96.6% on 1.5B, surpassing Oracle on out-of-domain tasks. Performance scales smoothly with label budget, reaching 99.4% of Oracle at 70% labels.
- Abstract(参考訳): 強化学習による複雑な推論のための大規模言語モデル(LLM)のトレーニングには、生成されたロールアウトが正しいかどうかを示す報酬ラベルが必要である。
しかし、報酬ラベルを大規模に取得するには、高価な人間のラベル付けや時間を要する検証手順が必要になることも多い。
報酬ラベルが限定されている場合、報酬ラベルの不足により強化学習の微調整の有効性が制限される。
我々は、グラフベースのエクスペリエンスメモリフレームワークであるMemRewardを紹介した。最初のLCMポリシーは、各クエリに対するロールアウトを生成し、それぞれが思考プロセスと最終回答で構成され、これらのロールアウトはエクスペリエンスメモリとして格納される。
クエリ、思考プロセス、回答は、類似性と構造的なエッジを持つ異種グラフのノードを形成し、ラベル付きノードでトレーニングされたGNNは、オンライン最適化中にラベルなしロールアウトに対する報酬を伝達する。
Qwen2.5-3Bと1.5Bの数学、質問応答、コード生成の実験では、MemRewardは20%のラベルしか持たず、3Bでは97.3%、1.5Bでは96.6%、ドメイン外のタスクではOracleを上回っている。
ラベルの予算とともにパフォーマンスは円滑にスケールし、70%のラベルでOracleの99.4%に達した。
関連論文リスト
- TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文 参考訳(メタデータ) (2025-10-02T16:24:01Z) - BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Supervised Speech Recognition [63.45645200463539]
BiRQは、BEST-RQの効率とHuBERTスタイルのラベル拡張の強化の利点を組み合わせた、双方向SSLフレームワークである。
提案手法は,960時間のLibriSpeech,150時間のAMIミーティング,5,000時間のYODASなど,さまざまなデータセットで検証する。
論文 参考訳(メタデータ) (2025-09-18T21:09:29Z) - Learning from Label Proportions: Bootstrapping Supervised Learners via Belief Propagation [18.57840057487926]
LLP(Learning from Label Proportions)は、トレーニング中にバッグと呼ばれるインスタンスのグループに対して、アグリゲートレベルのラベルしか利用できない学習問題である。
この設定は、プライバシー上の配慮から、広告や医療などの領域で発生する。
本稿では,この問題に対して,反復的に2つの主要なステップを実行する新しいアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T06:09:26Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Information Gain Propagation: a new way to Graph Active Learning with
Soft Labels [26.20597165750861]
グラフニューラルネットワーク(GNN)は様々なタスクで大きな成功を収めているが、その性能は多数のラベル付きノードに依存している。
GNNに基づくアクティブラーニング(AL)手法を提案し,ラベル付けに最も有用なノードを選択することにより,ラベル付け効率を向上させる。
提案手法は, 精度とラベル付けコストの両面から, 最先端のGNNベースのAL法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-02T13:28:25Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z) - SoQal: Selective Oracle Questioning in Active Learning [17.58391771585294]
オラクルからラベルをいつ要求すべきかを判断する質問戦略であるSoQalを提案する。
公開可能な5つのデータセットの実験を行い、ベースラインアプローチと比較してSoQalの優位性を示す。
論文 参考訳(メタデータ) (2020-04-22T09:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。