論文の概要: MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization
- arxiv url: http://arxiv.org/abs/2402.11711v2
- Date: Wed, 16 Oct 2024 21:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:39.547233
- Title: MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization
- Title(参考訳): MORL-Prompt:離散プロンプト最適化のための多目的強化学習の実証分析
- Authors: Yasaman Jafari, Dheeraj Mekala, Rose Yu, Taylor Berg-Kirkpatrick,
- Abstract要約: RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
- 参考スコア(独自算出の注目度): 45.410121761165634
- License:
- Abstract: RL-based techniques can be employed to search for prompts that, when fed into a target language model, maximize a set of user-specified reward functions. However, in many target applications, the natural reward functions are in tension with one another -- for example, content preservation vs. style matching in style transfer tasks. Current techniques focus on maximizing the average of reward functions, which does not necessarily lead to prompts that achieve balance across rewards -- an issue that has been well-studied in the multi-objective and robust optimization literature. In this paper, we conduct an empirical comparison of several existing multi-objective optimization techniques adapted to this new setting: RL-based discrete prompt optimization. We compare two methods optimizing the volume of the Pareto reward surface and one method that chooses an update direction that benefits all rewards simultaneously. We evaluate performance on two NLP tasks: style transfer and machine translation, each using three competing reward functions. Our experiments demonstrate that multi-objective methods that directly optimize the volume of the Pareto reward surface perform better and achieve a better balance of all rewards than those that attempt to find monotonic update directions.
- Abstract(参考訳): RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
しかし、多くのターゲットアプリケーションにおいて、自然報酬関数は互いに緊張関係にある。例えば、スタイル転送タスクにおけるコンテンツ保存対スタイルマッチング。現在のテクニックは、報酬関数の平均を最大化することに焦点を当てている。
本稿では、この新たな設定に適応した複数の既存多目的最適化手法の実験的比較を行う: RLに基づく離散的プロンプト最適化。
パレート報酬面の体積を最適化する2つの方法と、全ての報酬を同時に得られる更新方向を選択する1つの方法を比較する。
我々は2つのNLPタスク(スタイル転送と機械翻訳)の性能を競合する3つの報酬関数を用いて評価した。
実験により,パレート報酬面の体積を直接最適化する多目的法は,単調な更新方向を見つけようとする方法よりも,すべての報酬のバランスが良く,高い結果が得られることが示された。
関連論文リスト
- Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct
Preference Optimization [78.50294936259026]
我々は、最小限のオーバーヘッドで複数のアライメント目標に対して、MODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは言語モデリングを直接報酬モデリングに折り畳み、全ての目的を特定の重み付けと組み合わせた暗黙的な集団報酬モデル(cRM)としてLMを訓練する。
理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定で計算的に効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Leveraging Trust for Joint Multi-Objective and Multi-Fidelity
Optimization [0.0]
本稿では,ベイズ的多目的・多忠実度最適化(MOMF)に対する新しいアプローチについて検討する。
複数目的とデータソースの同時最適化を支援するために,信頼度基準の革新的利用を提案する。
本手法はプラズマ物理学や流体力学などの分野におけるシミュレーション問題の解法に適用可能である。
論文 参考訳(メタデータ) (2021-12-27T20:55:26Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - From STL Rulebooks to Rewards [4.859570041295978]
本稿では,多目的の強化学習のための報酬形成のための原則的アプローチを提案する。
まずSTLに新しい定量的セマンティクスを組み、個々の要求を自動的に評価する。
次に,複数の要件の評価を1つの報酬に体系的に組み合わせる手法を開発した。
論文 参考訳(メタデータ) (2021-10-06T14:16:59Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Multi-Fidelity Multi-Objective Bayesian Optimization: An Output Space
Entropy Search Approach [44.25245545568633]
複数目的のブラックボックス最適化の新たな課題を多要素関数評価を用いて検討する。
いくつかの総合的および実世界のベンチマーク問題に対する実験により、MF-OSEMOは両者の近似により、最先端の単一忠実度アルゴリズムよりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2020-11-02T06:59:04Z) - Resource Aware Multifidelity Active Learning for Efficient Optimization [0.8717253904965373]
本稿では,ブラックボックス関数の最適化を高速化するためのリソース・アウェア・アクティブ・ラーニング(RAAL)戦略を紹介する。
RAAL戦略は最適化タスクの大幅な高速化を可能にするために、最適に複数のポイントを投入する。
論文 参考訳(メタデータ) (2020-07-09T10:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。