Fugu-MT 論文翻訳(概要): MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization

論文の概要: MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization

arxiv url: http://arxiv.org/abs/2402.11711v1
Date: Sun, 18 Feb 2024 21:25:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 19:18:32.496268
Title: MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization
Title（参考訳）: MORL-Prompt:離散プロンプト最適化のための多目的強化学習の実証分析
Authors: Yasaman Jafari, Dheeraj Mekala, Rose Yu, Taylor Berg-Kirkpatrick
Abstract要約: RLベースの手法は、ユーザーが指定した報酬関数の集合を最大化するプロンプトの探索に使用できる。現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。本稿では,RLに基づく離散的なプロンプト最適化に,多目的最適化のためのいくつかの手法を適用する。
参考スコア（独自算出の注目度）: 49.60729578316884
License: http://creativecommons.org/licenses/by/4.0/
Abstract: RL-based techniques can be used to search for prompts that when fed into a target language model maximize a set of user-specified reward functions. However, in many target applications, the natural reward functions are in tension with one another -- for example, content preservation vs. style matching in style transfer tasks. Current techniques focus on maximizing the average of reward functions, which does not necessarily lead to prompts that achieve balance across rewards -- an issue that has been well-studied in the multi-objective and robust optimization literature. In this paper, we adapt several techniques for multi-objective optimization to RL-based discrete prompt optimization -- two that consider volume of the Pareto reward surface, and another that chooses an update direction that benefits all rewards simultaneously. We conduct an empirical analysis of these methods on two NLP tasks: style transfer and machine translation, each using three competing reward functions. Our experiments demonstrate that multi-objective methods that directly optimize volume perform better and achieve a better balance of all rewards than those that attempt to find monotonic update directions.
Abstract（参考訳）: RLに基づく手法は、ターゲット言語モデルに入力された場合、ユーザーが指定した報酬関数の集合を最大化するプロンプトを探索するために用いられる。しかし、多くのターゲットアプリケーションでは、自然報酬関数は、例えば、スタイル転送タスクにおけるコンテンツ保存対スタイルマッチングといった、互いに緊張状態にある。現在の技術では、報酬関数の平均を最大化することに焦点を当てている。これは必ずしも報酬間のバランスを達成するプロンプトにつながるわけではない。これは、多目的で堅牢な最適化文献でよく研究されている問題である。本稿では,多目的最適化のための複数の手法をrlベースの離散的プロンプト最適化に適用する。2つはパレートの報酬面の体積を考慮し,もう1つは全ての報酬を同時に得られる更新方向を選択する。これら2つのnlpタスク(スタイル転送と機械翻訳)について経験的分析を行い,3つの報酬関数を用いた。実験により,音量を直接最適化する多目的手法は,単調な更新方向を見つけようとする方法よりも,すべての報酬のバランスが良好であることを示す。

関連論文リスト

Preference-based Multi-Objective Reinforcement Learning [5.031225669460861]
本稿では、嗜好のMORLフレームワークへの統合を形式化した嗜好ベースのMORL(Pb-MORL)を紹介する。そこで本提案手法は,提案した嗜好に適合する多目的報酬モデルを構築する。ベンチマーク多目的タスク,マルチエネルギー管理タスク,および多線高速道路における自律運転タスクにおける実験結果から,本手法の競争力向上が示唆された。
論文参考訳（メタデータ） (2025-07-18T16:43:04Z)
Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models [13.428939931403473]
RATTPOは,様々な報酬シナリオに適用可能なフレキシブルなテスト時間最適化手法である。 RATTPOは、報酬固有のタスク記述を必要とせずに、大きな言語モデル(LLM)のテキストをクエリすることで、最適化されたプロンプトを検索する。経験的結果はRATTPOの汎用性を示し、多様な報酬設定のユーザプロンプトを効果的に強化する。
論文参考訳（メタデータ） (2025-06-20T09:02:05Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文参考訳（メタデータ） (2024-08-14T11:19:28Z)
Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文参考訳（メタデータ） (2024-07-04T02:19:49Z)
Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文参考訳（メタデータ） (2024-06-26T12:23:54Z)
Leveraging Trust for Joint Multi-Objective and Multi-Fidelity Optimization [0.0]
本稿では,ベイズ的多目的・多忠実度最適化(MOMF)に対する新しいアプローチについて検討する。複数目的とデータソースの同時最適化を支援するために,信頼度基準の革新的利用を提案する。本手法はプラズマ物理学や流体力学などの分野におけるシミュレーション問題の解法に適用可能である。
論文参考訳（メタデータ） (2021-12-27T20:55:26Z)
Batch Multi-Fidelity Bayesian Optimization with Deep Auto-Regressive Networks [17.370056935194786]
我々は,Deep Auto-Regressive Networks (BMBO-DARN) を用いたバッチ多重忠実ベイズ最適化を提案する。ベイズニューラルネットワークの集合を用いて、完全自己回帰モデルを構築します。我々は,忠実度を検索することなく,単純かつ効率的なバッチクエリ手法を開発した。
論文参考訳（メタデータ） (2021-06-18T02:55:48Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)
DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。 We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit) 我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文参考訳（メタデータ） (2020-11-15T21:57:47Z)
Multi-Fidelity Multi-Objective Bayesian Optimization: An Output Space Entropy Search Approach [44.25245545568633]
複数目的のブラックボックス最適化の新たな課題を多要素関数評価を用いて検討する。いくつかの総合的および実世界のベンチマーク問題に対する実験により、MF-OSEMOは両者の近似により、最先端の単一忠実度アルゴリズムよりも大幅に改善されていることが示された。
論文参考訳（メタデータ） (2020-11-02T06:59:04Z)
Resource Aware Multifidelity Active Learning for Efficient Optimization [0.8717253904965373]
本稿では,ブラックボックス関数の最適化を高速化するためのリソース・アウェア・アクティブ・ラーニング(RAAL)戦略を紹介する。 RAAL戦略は最適化タスクの大幅な高速化を可能にするために、最適に複数のポイントを投入する。
論文参考訳（メタデータ） (2020-07-09T10:01:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。