Fugu-MT 論文翻訳(概要): MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization

論文の概要: MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization

arxiv url: http://arxiv.org/abs/2402.11711v2
Date: Wed, 16 Oct 2024 21:51:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.870703
Title: MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization
Title（参考訳）: MORL-Prompt:離散プロンプト最適化のための多目的強化学習の実証分析
Authors: Yasaman Jafari, Dheeraj Mekala, Rose Yu, Taylor Berg-Kirkpatrick,
Abstract要約: RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
参考スコア（独自算出の注目度）: 45.410121761165634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: RL-based techniques can be employed to search for prompts that, when fed into a target language model, maximize a set of user-specified reward functions. However, in many target applications, the natural reward functions are in tension with one another -- for example, content preservation vs. style matching in style transfer tasks. Current techniques focus on maximizing the average of reward functions, which does not necessarily lead to prompts that achieve balance across rewards -- an issue that has been well-studied in the multi-objective and robust optimization literature. In this paper, we conduct an empirical comparison of several existing multi-objective optimization techniques adapted to this new setting: RL-based discrete prompt optimization. We compare two methods optimizing the volume of the Pareto reward surface and one method that chooses an update direction that benefits all rewards simultaneously. We evaluate performance on two NLP tasks: style transfer and machine translation, each using three competing reward functions. Our experiments demonstrate that multi-objective methods that directly optimize the volume of the Pareto reward surface perform better and achieve a better balance of all rewards than those that attempt to find monotonic update directions.
Abstract（参考訳）: RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。しかし、多くのターゲットアプリケーションにおいて、自然報酬関数は互いに緊張関係にある。例えば、スタイル転送タスクにおけるコンテンツ保存対スタイルマッチング。現在のテクニックは、報酬関数の平均を最大化することに焦点を当てている。本稿では、この新たな設定に適応した複数の既存多目的最適化手法の実験的比較を行う: RLに基づく離散的プロンプト最適化。パレート報酬面の体積を最適化する2つの方法と、全ての報酬を同時に得られる更新方向を選択する1つの方法を比較する。我々は2つのNLPタスク(スタイル転送と機械翻訳)の性能を競合する3つの報酬関数を用いて評価した。実験により,パレート報酬面の体積を直接最適化する多目的法は,単調な更新方向を見つけようとする方法よりも,すべての報酬のバランスが良く,高い結果が得られることが示された。

関連論文リスト

A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文参考訳（メタデータ） (2025-10-09T03:59:51Z)
Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment [1.8552770604791606]
相補的な報酬パラダイムを統合するハイブリッド報酬モデリングフレームワークを提案する。ハイブリッドおよびマルチアスペクト報酬モデルを適用する際に、異なるマルチモーダルベンチマーク間で一貫した改善を示す。 3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
論文参考訳（メタデータ） (2025-10-06T18:53:23Z)
Preference-based Multi-Objective Reinforcement Learning [5.031225669460861]
本稿では、嗜好のMORLフレームワークへの統合を形式化した嗜好ベースのMORL(Pb-MORL)を紹介する。そこで本提案手法は,提案した嗜好に適合する多目的報酬モデルを構築する。ベンチマーク多目的タスク,マルチエネルギー管理タスク,および多線高速道路における自律運転タスクにおける実験結果から,本手法の競争力向上が示唆された。
論文参考訳（メタデータ） (2025-07-18T16:43:04Z)
Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models [13.428939931403473]
RATTPOは,様々な報酬シナリオに適用可能なフレキシブルなテスト時間最適化手法である。 RATTPOは、報酬固有のタスク記述を必要とせずに、大きな言語モデル(LLM)のテキストをクエリすることで、最適化されたプロンプトを検索する。経験的結果はRATTPOの汎用性を示し、多様な報酬設定のユーザプロンプトを効果的に強化する。
論文参考訳（メタデータ） (2025-06-20T09:02:05Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文参考訳（メタデータ） (2024-08-14T11:19:28Z)
Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文参考訳（メタデータ） (2024-07-04T02:19:49Z)
Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文参考訳（メタデータ） (2024-06-26T12:23:54Z)
Leveraging Trust for Joint Multi-Objective and Multi-Fidelity Optimization [0.0]
本稿では,ベイズ的多目的・多忠実度最適化(MOMF)に対する新しいアプローチについて検討する。複数目的とデータソースの同時最適化を支援するために,信頼度基準の革新的利用を提案する。本手法はプラズマ物理学や流体力学などの分野におけるシミュレーション問題の解法に適用可能である。
論文参考訳（メタデータ） (2021-12-27T20:55:26Z)
Batch Multi-Fidelity Bayesian Optimization with Deep Auto-Regressive Networks [17.370056935194786]
我々は,Deep Auto-Regressive Networks (BMBO-DARN) を用いたバッチ多重忠実ベイズ最適化を提案する。ベイズニューラルネットワークの集合を用いて、完全自己回帰モデルを構築します。我々は,忠実度を検索することなく,単純かつ効率的なバッチクエリ手法を開発した。
論文参考訳（メタデータ） (2021-06-18T02:55:48Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)
DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。 We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit) 我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文参考訳（メタデータ） (2020-11-15T21:57:47Z)
Multi-Fidelity Multi-Objective Bayesian Optimization: An Output Space Entropy Search Approach [44.25245545568633]
複数目的のブラックボックス最適化の新たな課題を多要素関数評価を用いて検討する。いくつかの総合的および実世界のベンチマーク問題に対する実験により、MF-OSEMOは両者の近似により、最先端の単一忠実度アルゴリズムよりも大幅に改善されていることが示された。
論文参考訳（メタデータ） (2020-11-02T06:59:04Z)
Resource Aware Multifidelity Active Learning for Efficient Optimization [0.8717253904965373]
本稿では,ブラックボックス関数の最適化を高速化するためのリソース・アウェア・アクティブ・ラーニング(RAAL)戦略を紹介する。 RAAL戦略は最適化タスクの大幅な高速化を可能にするために、最適に複数のポイントを投入する。
論文参考訳（メタデータ） (2020-07-09T10:01:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。