論文の概要: Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation
- arxiv url: http://arxiv.org/abs/2403.13578v1
- Date: Wed, 20 Mar 2024 13:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:47:59.801911
- Title: Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation
- Title(参考訳): 共振器リフレクション生成のためのマルチリワード強化学習における動的リワード調整
- Authors: Do June Min, Veronica Perez-Rosas, Kenneth Resnicow, Rada Mihalcea,
- Abstract要約: 自然言語生成のための複数テキスト品質を協調的に最適化するマルチリワード強化学習の課題について検討する。
我々は,報酬をひとつの値に組み合わせ,同時に最適化するという広範な戦略を頼りに,DynaOpt と C-DynaOpt という2つの新しいバンドイット手法を紹介した。
- 参考スコア(独自算出の注目度): 21.983823344984483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of multi-reward reinforcement learning to jointly optimize for multiple text qualities for natural language generation. We focus on the task of counselor reflection generation, where we optimize the generators to simultaneously improve the fluency, coherence, and reflection quality of generated counselor responses. We introduce two novel bandit methods, DynaOpt and C-DynaOpt, which rely on the broad strategy of combining rewards into a single value and optimizing them simultaneously. Specifically, we employ non-contextual and contextual multi-arm bandits to dynamically adjust multiple reward weights during training. Through automatic and manual evaluations, we show that our proposed techniques, DynaOpt and C-DynaOpt, outperform existing naive and bandit baselines, showcasing their potential for enhancing language models.
- Abstract(参考訳): 本稿では,自然言語生成のための複数テキスト品質を協調的に最適化するマルチリワード強化学習の課題について検討する。
我々は,カウンセラーのリフレクション生成の課題に焦点を合わせ,生成カウンセラー応答の流速,コヒーレンス,リフレクション品質を同時に向上させるために,ジェネレータを最適化する。
我々は,報酬をひとつの値に組み合わせ,同時に最適化するという広範な戦略を頼りに,DynaOpt と C-DynaOpt という2つの新しいバンドイット手法を紹介した。
具体的には、トレーニング中に複数の報酬重み付けを動的に調整するために、非文脈的および文脈的マルチアームバンディットを用いる。
自動および手動評価により,提案手法であるDynaOptとC-DynaOptは,既存のナイーブベースラインやバンディットベースラインよりも優れており,言語モデルの拡張の可能性を示している。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation [40.74782694945025]
本稿では,報酬重みを手動で調整する問題に対処するParrotを提案する。
我々は,新しいマルチリワード最適化アルゴリズムを用いて,T2Iモデルと即時拡張ネットワークを協調的に最適化する。
また,提案手法は,ユーザ入力に対するインプットの正確性を確保するために,推論時に独自のプロンプト中心のガイダンスを導入する。
論文 参考訳(メタデータ) (2024-01-11T05:36:36Z) - MultiPrompter: Cooperative Prompt Optimization with Multi-Agent
Reinforcement Learning [68.40755873520808]
MultiPrompterは、プロンプト最適化をプロンプト間の協調ゲームと見なす新しいフレームワークである。
我々は,MultiPrompterが問題のサイズを効果的に減らし,プロンプトを最適に学習するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-10-25T15:58:51Z) - Guide Your Agent with Adaptive Multimodal Rewards [107.08768813632032]
本研究は、エージェントの一般化能力を高めるための効率的なフレームワークであるアダプティブリターン条件付きポリシー(ARP)を提示する。
我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間における視覚観察と自然言語命令の類似性を計算することである。
マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。
論文 参考訳(メタデータ) (2023-09-19T17:39:20Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Improving GAN Training with Probability Ratio Clipping and Sample
Reweighting [145.5106274085799]
GAN(Generative Adversarial Network)は、不安定なトレーニングにより性能が低下することが多い。
本稿では,より優れたトレーニング安定性を享受する新しい変分GANトレーニングフレームワークを提案する。
多様な最先端のGANアーキテクチャにトレーニングアプローチを組み込むことで、幅広いタスクに対して大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-12T01:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。