論文の概要: TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2407.16574v1
- Date: Tue, 23 Jul 2024 15:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:45:46.268855
- Title: TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback
- Title(参考訳): TLCR:人間のフィードバックによるきめ細かい強化学習のためのToken-Level Continuous Reward
- Authors: Eunseop Yoon, Hee Suk Yoon, SooHwan Eom, Gunsoo Han, Daniel Wontae Nam, Daejin Jo, Kyoung-Woon On, Mark A. Hasegawa-Johnson, Sungwoong Kim, Chang D. Yoo,
- Abstract要約: 人間のフィードバックからの強化学習のためのTLCR(Token-Level Continuous Reward)を紹介する。
提案するTLCRは,従来のシーケンスレベルやトークンレベルの離散報酬よりも一貫した性能向上を実現している。
- 参考スコア(独自算出の注目度): 24.4488286574098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) leverages human preference data to train language models to align more closely with human essence. These human preference data, however, are labeled at the sequence level, creating a mismatch between sequence-level preference labels and tokens, which are autoregressively generated from the language model. Although several recent approaches have tried to provide token-level (i.e., dense) rewards for each individual token, these typically rely on predefined discrete reward values (e.g., positive: +1, negative: -1, neutral: 0), failing to account for varying degrees of preference inherent to each token. To address this limitation, we introduce TLCR (Token-Level Continuous Reward) for RLHF, which incorporates a discriminator trained to distinguish positive and negative tokens, and the confidence of the discriminator is used to assign continuous rewards to each token considering the context. Extensive experiments show that our proposed TLCR leads to consistent performance improvements over previous sequence-level or token-level discrete rewards on open-ended generation benchmarks.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、人間の嗜好データを利用して言語モデルを訓練し、人間の本質とより緊密に整合させる。
しかし、これらの人間の嗜好データはシーケンスレベルでラベル付けされ、言語モデルから自動回帰的に生成されるシーケンスレベルの選好ラベルとトークンのミスマッチを生成する。
最近のいくつかのアプローチでは、トークン単位の報酬(すなわち、個々のトークンに対して密度の高い報酬)を提供しようとしているが、それらは通常、事前に定義された離散的な報酬値(例えば、正:+1、負:-1、中性:0)に依存しており、各トークン固有の好みの度合いを考慮に入れていない。
この制限に対処するため, RLHF に TLCR (Token-Level Continuous Reward) を導入し, 正負のトークンと負のトークンを区別するよう訓練された識別器を組み込んだ。
大規模な実験により,提案したTLCRは,オープンエンド生成ベンチマークにおいて,前回のシーケンスレベルやトークンレベルの離散的な報酬よりも一貫した性能向上をもたらすことが示された。
関連論文リスト
- Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment [33.5805074836187]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。
この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。
本稿では,様々なタスクに頑健に適用可能な適応的メッセージワイドRLHF'法を提案する。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks [13.600674179059238]
そこで本稿では,優先最適化トレーニングにおいて,各トークンに対応するKL分散と報酬の重み付けを自動的に学習する,フレキシブルな目標SparsePOを提案する。
提案手法では,目標タスクに応じて有意な重み付けを割り当て,所望の好みに応じてより多くの応答を生成し,他のトークンレベルおよび応答レベルPO手法と比較して最大2ポイントの推論タスクを改善する。
論文 参考訳(メタデータ) (2024-10-07T15:01:29Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Perception and Semantic Aware Regularization for Sequential Confidence
Calibration [12.265757315192497]
本稿では,パーセプションとセマンティックなシーケンス正規化フレームワークを提案する。
意味的文脈に依存しない認識と言語モデルを導入し、高い知覚的類似性と意味的相関性を持つ類似のシーケンスを取得する。
シーンテキストや音声認識など,標準シーケンス認識タスクの実験により,本手法が新たな最先端の結果を設定できることが実証された。
論文 参考訳(メタデータ) (2023-05-31T02:16:29Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration [56.64703901898937]
本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。
言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
論文 参考訳(メタデータ) (2022-05-05T08:50:50Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。