論文の概要: Adaptive Segment-level Reward: Bridging the Gap Between Action and Reward Space in Alignment
- arxiv url: http://arxiv.org/abs/2411.00809v3
- Date: Tue, 25 Feb 2025 10:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:20:19.988631
- Title: Adaptive Segment-level Reward: Bridging the Gap Between Action and Reward Space in Alignment
- Title(参考訳): 適応セグメントレベルリワード:アライメントにおけるアクションとリワード空間のギャップを埋める
- Authors: Yanshi Li, Shaopan Xiong, Gengru Chen, Xiaoyang Li, Yijia Luo, Xingyuan Bu, Yingshui Tan, Wenbo Su, Bo Zheng,
- Abstract要約: 強化学習(RL)は大規模言語モデル(LLM)と人間の嗜好の整合に極めて効果的であることが証明されている。
典型的なRL法は、全体的なシーケンス報酬の下で最適化され、最適以下の学習プロセスにつながる可能性がある。
これは重要なクレジット割り当ての問題、すなわち、強化または抑制するトークンを特定することを反映している。
- 参考スコア(独自算出の注目度): 13.087267214534727
- License:
- Abstract: Reinforcement Learning (RL) has proven highly effective in aligning Large Language Models (LLMs) with human preferences. Typical RL methods optimize under an overall sequence reward, which can lead to a suboptimal learning process. This reflects a key credit assignment problem: identifying which tokens to reinforce or suppress. To rectify these shortcomings, step-wise and token-wise methods have been proposed. However, step-wise methods rely on punctuation segmentation and still cannot accurately identify the key tokens. The token-level approach is too fine-grained, attending to many unimportant tokens and thus introducing a large amount of noise. To assign more accurate rewards to different tokens, improving credit assignment, we propose the "Adaptive Segment-wise Reward" method. We employ semantic meaning, rather than punctuation, to adaptively delineate segments. Experiments demonstrate that our method can be integrated into various training methods. Compared to training methods \textit{without} our approach, our method improves the success rate on adversarial samples by 10\%, and achieves a 1.3\% improvement on evaluation benchmarks such as MMLU, GSM8K, HumanEval, etc.
- Abstract(参考訳): 強化学習(RL)は大規模言語モデル(LLM)と人間の嗜好の整合に極めて効果的であることが証明されている。
典型的なRL法は、全体的なシーケンス報酬の下で最適化され、最適以下の学習プロセスにつながる可能性がある。
これは重要なクレジット割り当ての問題、すなわち、強化または抑制するトークンを特定することを反映している。
これらの欠点を正すために、ステップワイドおよびトークンワイドの手法が提案されている。
しかし、ステップワイズメソッドは句読解セグメンテーションに依存しており、キートークンを正確に識別することはできない。
トークンレベルのアプローチは粒度が大きすぎるため、重要でないトークンが多く含まれ、大量のノイズがもたらされる。
異なるトークンにより正確な報酬を割り当て、クレジット代入を改善するために、「適応セグメントワイド・リワード」法を提案する。
分節を適応的に記述するために、句読点ではなく意味的意味を用いる。
実験により,本手法を様々な訓練手法に統合できることが実証された。
本手法は, MMLU, GSM8K, HumanEvalなどの評価ベンチマークにおいて, 学習手法であるtextit{without} と比較して, 対向検体における成功率を 10 % 改善し, 1.3 % 改善する。
関連論文リスト
- Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。
RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。
次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。
トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:55:13Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Post-Training Overfitting Mitigation in DNN Classifiers [31.513866929577336]
学習後MMベースの正規化は,クラス不均衡やオーバートレーニングによる非マチュラスなオーバーフィッティングを著しく軽減することを示す。
攻撃に対する弾力性はあるが、クリーン(無攻撃)な一般化を損なう敵の訓練とは異なり、敵の学習に起因したアプローチを実証する。
論文 参考訳(メタデータ) (2023-09-28T20:16:24Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。