Fugu-MT 論文翻訳(概要): Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment

論文の概要: Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment

arxiv url: http://arxiv.org/abs/2411.00809v1
Date: Wed, 23 Oct 2024 16:16:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.421036
Title: Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment
Title（参考訳）: アダプティブ・センス・リワード:アライメントにおけるアクションとリワード空間のギャップを理解する
Authors: Yanshi Li, Shaopan Xiong, Gengru Chen, Xiaoyang Li, Yijia Luo, Xingyao Zhang, Yanhui Huang, Xingyuan Bu, Yingshui Tan, Chun Yuan, Jiamang Wang, Wenbo Su, Bo Zheng,
Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。本稿では,様々なタスクに頑健に適用可能な適応的メッセージワイドRLHF'法を提案する。
参考スコア（独自算出の注目度）: 33.5805074836187
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) has proven highly effective in aligning Large Language Models (LLMs) with human preferences. However, the original RLHF typically optimizes under an overall reward, which can lead to a suboptimal learning process. This limitation stems from RLHF's lack of awareness regarding which specific tokens should be reinforced or suppressed. Moreover, conflicts in supervision can arise, for instance, when a chosen response includes erroneous tokens, while a rejected response contains accurate elements. To rectify these shortcomings, increasing dense reward methods, such as step-wise and token-wise RLHF, have been proposed. However, these existing methods are limited to specific tasks (like mathematics). In this paper, we propose the ``Adaptive Message-wise RLHF'' method, which robustly applies to various tasks. By defining pivot tokens as key indicators, our approach adaptively identifies essential information and converts sample-level supervision into fine-grained, subsequence-level supervision. This aligns the density of rewards and action spaces more closely with the information density of the input. Experiments demonstrate that our method can be integrated into various training methods, significantly mitigating hallucinations and catastrophic forgetting problems while outperforming other methods on multiple evaluation metrics. Our method improves the success rate on adversarial samples by 10\% compared to the sample-wise approach and achieves a 1.3\% improvement on evaluation benchmarks such as MMLU, GSM8K, and HumanEval et al.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。しかしながら、オリジナルのRLHFは通常、全体的な報酬の下で最適化されるため、準最適学習プロセスにつながる可能性がある。この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。さらに、例えば、選択された応答が誤ってトークンを含む場合や、拒否された応答が正確な要素を含む場合など、監督上の衝突が発生する可能性がある。これらの欠点を是正するために、ステップワイズやトークンワイズRLHFといった高密度報酬法が提案されている。しかし、これらの既存の手法は(数学のような)特定のタスクに限定されている。本稿では,様々なタスクに頑健に適用可能な '<Adaptive Message-wise RLHF'' 手法を提案する。ピボットトークンをキーインジケータとして定義することにより、本質的な情報を適応的に識別し、サンプルレベルのインジケータをきめ細かなサブシーケンスレベルのインジケータに変換する。これにより、報酬と行動空間の密度は入力の情報密度とより密接に一致する。実験により,本手法を様々な訓練手法に統合し,幻覚と破滅的忘れの問題を大幅に軽減し,複数の評価指標において他の方法よりも優れることを示した。本手法は, MMLU, GSM8KおよびHumanEvalなどの評価ベンチマークにおいて, サンプルワイドアプローチと比較して10倍の精度向上を実現し, 1.3倍の精度向上を実現している。

関連論文リスト

Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文参考訳（メタデータ） (2025-06-07T00:51:27Z)
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文参考訳（メタデータ） (2025-01-06T06:17:56Z)
Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文参考訳（メタデータ） (2024-10-22T17:45:47Z)
Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文参考訳（メタデータ） (2024-10-08T08:04:09Z)
SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks [13.600674179059238]
そこで本稿では,優先最適化トレーニングにおいて,各トークンに対応するKL分散と報酬の重み付けを自動的に学習する,フレキシブルな目標SparsePOを提案する。提案手法では,目標タスクに応じて有意な重み付けを割り当て,所望の好みに応じてより多くの応答を生成し,他のトークンレベルおよび応答レベルPO手法と比較して最大2ポイントの推論タスクを改善する。
論文参考訳（メタデータ） (2024-10-07T15:01:29Z)
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。提案手法は,テキスト要約,対話生成,質問応答,プログラム合成など,様々なモデルサイズやタスクにまたがる広範な実験を通じて検証される。
論文参考訳（メタデータ） (2024-10-03T17:55:13Z)
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-27T17:31:21Z)
EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文参考訳（メタデータ） (2024-05-13T08:24:21Z)
Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文参考訳（メタデータ） (2024-03-24T12:41:58Z)
Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文参考訳（メタデータ） (2024-03-12T14:51:57Z)
Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-01T03:27:08Z)
MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation [8.46894039954642]
対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-09T07:59:42Z)
Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文参考訳（メタデータ） (2023-11-07T15:36:40Z)
Dynamic Top-k Estimation Consolidates Disagreement between Feature Attribution Methods [5.202524136984542]
摂動に基づく手法とバニラグラディエントは,ほとんどの手法において,静的なkによるメソッド・メソッド・メソッド・コンセンサス・メトリクスに対して高いコンセンサスを示す。これは、属性スコアの逐次的特性が、人間の解釈のための属性信号の統合に有益であることを示す最初の証拠である。
論文参考訳（メタデータ） (2023-10-09T11:19:33Z)
Post-Training Overfitting Mitigation in DNN Classifiers [31.513866929577336]
学習後MMベースの正規化は,クラス不均衡やオーバートレーニングによる非マチュラスなオーバーフィッティングを著しく軽減することを示す。攻撃に対する弾力性はあるが、クリーン(無攻撃)な一般化を損なう敵の訓練とは異なり、敵の学習に起因したアプローチを実証する。
論文参考訳（メタデータ） (2023-09-28T20:16:24Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文参考訳（メタデータ） (2023-03-21T07:00:35Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。本稿では,両経路の分岐点に位置する新しい手法を提案する。我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文参考訳（メタデータ） (2022-12-09T14:29:57Z)
Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文参考訳（メタデータ） (2022-10-12T17:54:32Z)
Interpolation-based Contrastive Learning for Few-Label Semi-Supervised Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文参考訳（メタデータ） (2022-02-24T06:00:05Z)
Learning to Ask Conversational Questions by Optimizing Levenshtein Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。 RISEは会話の特徴に関連するトークンに注意を払うことができる。 2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2021-06-30T08:44:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。