論文の概要: DORB: Dynamically Optimizing Multiple Rewards with Bandits
- arxiv url: http://arxiv.org/abs/2011.07635v1
- Date: Sun, 15 Nov 2020 21:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 06:47:43.746668
- Title: DORB: Dynamically Optimizing Multiple Rewards with Bandits
- Title(参考訳): DORB: 複数のリワードをバンドで動的に最適化する
- Authors: Ramakanth Pasunuru, Han Guo, Mohit Bansal
- Abstract要約: 政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
- 参考スコア(独自算出の注目度): 101.68525259222164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradients-based reinforcement learning has proven to be a promising
approach for directly optimizing non-differentiable evaluation metrics for
language generation tasks. However, optimizing for a specific metric reward
leads to improvements in mostly that metric only, suggesting that the model is
gaming the formulation of that metric in a particular way without often
achieving real qualitative improvements. Hence, it is more beneficial to make
the model optimize multiple diverse metric rewards jointly. While appealing,
this is challenging because one needs to manually decide the importance and
scaling weights of these metric rewards. Further, it is important to consider
using a dynamic combination and curriculum of metric rewards that flexibly
changes over time. Considering the above aspects, in our work, we automate the
optimization of multiple metric rewards simultaneously via a multi-armed bandit
approach (DORB), where at each round, the bandit chooses which metric reward to
optimize next, based on expected arm gains. We use the Exp3 algorithm for
bandits and formulate two approaches for bandit rewards: (1) Single
Multi-reward Bandit (SM-Bandit); (2) Hierarchical Multi-reward Bandit
(HM-Bandit). We empirically show the effectiveness of our approaches via
various automatic metrics and human evaluation on two important NLG tasks:
question generation and data-to-text generation, including on an unseen-test
transfer setup. Finally, we present interpretable analyses of the learned
bandit curriculum over the optimized rewards.
- Abstract(参考訳): 政策勾配に基づく強化学習は、言語生成タスクの非微分可能評価指標を直接最適化するための有望なアプローチであることが証明されている。
しかし、特定のメトリックに対する報酬の最適化は、そのメトリックのみの改善につながり、モデルは、しばしば実際の定性的な改善を達成することなく、特定の方法でそのメトリックの定式化をゲームしていることを示唆している。
したがって、モデルを複数の多様な計量報酬を共同で最適化することがより有益である。
アピールする一方で、これは難しい。なぜなら、これらのメトリック報酬の重要性とスケーリングの重みを手動で決める必要があるからだ。
さらに、時間とともに柔軟に変化するメトリック報酬の動的組み合わせとカリキュラムの使用を検討することが重要である。
以上の点を考慮し,本研究では,マルチアームバンディットアプローチ(dorb)を用いて,複数のメトリック報酬の最適化を自動化し,各ラウンドにおいて,期待されるアームゲインに基づいて,次に最適化するメトリック報酬を選択する。
バンドイットにはexp3アルゴリズムを使用し,バンドイット報酬には(1)単一マルチリワードバンドイット(sm-bandit),(2)階層的マルチリワードバンドイット(hm-bandit)の2つのアプローチを定式化する。
我々は、様々な自動メトリクスと2つの重要なnlgタスク(質問生成とデータからテキストへの生成)における人間による評価を通して、我々のアプローチの有効性を実証的に示す。
最後に,最適化した報酬に対して,学習したバンディットカリキュラムの解釈可能な分析を行う。
関連論文リスト
- Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation [21.983823344984483]
自然言語生成のための複数テキスト品質を協調的に最適化するマルチリワード強化学習の課題について検討する。
我々は,報酬をひとつの値に組み合わせ,同時に最適化するという広範な戦略を頼りに,DynaOpt と C-DynaOpt という2つの新しいバンドイット手法を紹介した。
論文 参考訳(メタデータ) (2024-03-20T13:24:41Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in
Recommendation Systems [6.0232112783722]
本稿では,汎用モデルに基づくリグレードフレームワークであるMultiSlot ReRankerを提案し,その妥当性,多様性,鮮度を同時に最適化する。
我々は,OpenAI GymをRayフレームワークに統合したマルチスロットリグレードシミュレータを構築した。
論文 参考訳(メタデータ) (2024-01-11T23:17:07Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards [101.7246658985579]
ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-06-07T14:58:15Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。