論文の概要: Reinforcement Learning with Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation
- arxiv url: http://arxiv.org/abs/2402.14146v2
- Date: Wed, 23 Oct 2024 04:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:53:08.663821
- Title: Reinforcement Learning with Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation
- Title(参考訳): 動的マルチリワード重み付けによるマルチスタイル制御可能生成のための強化学習
- Authors: Karin de Langis, Ryan Koo, Dongyeop Kang,
- Abstract要約: テクストスタイルは、対人的ダイナミクス(フォーマル性など)や著者の感情や態度(嫌悪感など)など、多様な情報の集合を表現する
オープンな疑問は、言語モデルを明示的に制御して、テキストを生成する際にターゲットスタイルを織り合わせる方法だ。
このような制御された生成の1つのアプローチは、多目的強化学習(RL)である。
判別器の校正出力や,判別器の大きさによる動的重み付けなど,多型報酬の定式化について検討する。
- 参考スコア(独自算出の注目度): 15.959784404955402
- License:
- Abstract: Textual style expresses a diverse set of information, including interpersonal dynamics (e.g., formality) and the author's emotions or attitudes (e.g., disgust). An open question is how language models can be explicitly controlled so that they weave together target styles when generating text: for example, to produce text that is both negative and non-toxic. One approach to such controlled generation is multi-objective reinforcement learning (RL), but how best to combine multiple objectives in a reward function is an open question. In this paper, we investigate various formulations of multi-style rewards, including calibrated outputs from discriminators and dynamic weighting by discriminator gradient magnitudes. We find that our proposed dynamic weighting outperforms static weighting approaches with respect to style control while maintaining linguistic quality, and we explore its effectiveness in 2- and 3-style control.
- Abstract(参考訳): テクストスタイルは、対人的ダイナミクス(例えば、フォーマル性)や著者の感情や態度(例えば、嫌悪感)など、多様な情報集合を表現する。
オープンな疑問は、言語モデルをどのように明示的に制御し、テキストを生成する際にターゲットスタイルを織り合わせるかである。
このような制御された生成の1つのアプローチは、多目的強化学習(RL)であるが、報酬関数に複数の目的を組み合わせるのがいかに最適かは、オープンな問題である。
本稿では, 判別器からの校正出力や, 微分器勾配等級による動的重み付けなど, マルチスタイル報酬の定式化について検討する。
提案した動的重み付け手法は,言語的品質を維持しつつ,静的重み付け手法よりも優れており,その2-および3-スタイル制御における有効性について検討する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Personalized Text Generation with Fine-Grained Linguistic Control [9.668216418094316]
複数の言語的次元にまたがる微粒な属性の制御に焦点をあてる。
生成モデルを訓練するための新しいベンチマークを導入し、パーソナライズされたテキストを生成する能力を評価する。
論文 参考訳(メタデータ) (2024-02-07T14:41:08Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents [3.229105662984031]
GestureDiffuCLIPは、フレキシブルなスタイル制御を備えたリアルでスタイル化された音声合成ジェスチャを合成するためのニューラルネットワークフレームワークである。
本システムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,CLIP表現をジェネレータに注入する。
我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することができる。
論文 参考訳(メタデータ) (2023-03-26T03:35:46Z) - Audience-Centric Natural Language Generation via Style Infusion [5.6732899077715375]
本稿では,事前学習された言語生成モデルにおける聴衆のスタイル的嗜好に影響を及ぼす,新しいスタイル注入の課題を提案する。
限定的な人間の判断を利用して、スタイル分析モデルをブートストラップし、シードセットの判断を強化する。
我々の注入アプローチは、ジェネリックテキストプロンプトを用いた魅力的なスタイル化された例を生成することができる。
論文 参考訳(メタデータ) (2023-01-24T19:57:50Z) - Controlling Styles in Neural Machine Translation with Activation Prompt [34.53183905545485]
ニューラルネットワーク翻訳(NMT)のスタイル制御は,ユーザエクスペリエンスの向上に不可欠であるため,広く注目を集めている。
本稿では,NMTのスタイル制御のための新しいベンチマークとアプローチを提案する。
本稿では,スタイルアクティベーションプロンプト (StyleAP) という手法を提案する。
論文 参考訳(メタデータ) (2022-12-17T16:05:50Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Controllable Natural Language Generation with Contrastive Prefixes [120.12778570283956]
GPT2生成は、自然言語生成を操るために、プレフィックスと呼ばれる小さな属性固有のベクトルのセットを利用する。
単一アスペクト制御のための接頭辞を訓練するための新しい教師なし手法と教師なし手法を提案する。
単一アスペクト制御と多アスペクト制御の両方の実験結果から,提案手法は高い言語的品質を維持しつつ,所望の属性に向かって生成を導くことができることがわかった。
論文 参考訳(メタデータ) (2022-02-27T00:31:03Z) - Composed Variational Natural Language Generation for Few-shot Intents [118.37774762596123]
現実的な不均衡シナリオにおいて、数ショットのインテントに対するトレーニング例を生成します。
生成した発話の質を評価するために、一般化された複数ショット意図検出タスクについて実験を行った。
提案モデルでは,2つの実世界の意図検出データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-09-21T17:48:43Z) - Prototype-to-Style: Dialogue Generation with Style-Aware Editing on
Retrieval Memory [65.98002918470543]
文体対話生成の課題に対処する新しいプロトタイプ・ツー・スタイルのフレームワークを提案する。
このフレームワークは、IR(Information Retrieval)システムを使用して、検索した応答から応答プロトタイプを抽出する。
スタイリスティック応答生成器は、プロトタイプと所望の言語スタイルをモデル入力として、高品質でスタイリスティックな応答を得る。
論文 参考訳(メタデータ) (2020-04-05T14:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。