論文の概要: Reinforcement Learning with Dynamic Multi-Reward Weighting for
Multi-Style Controllable Generation
- arxiv url: http://arxiv.org/abs/2402.14146v1
- Date: Wed, 21 Feb 2024 22:02:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:15:14.713133
- Title: Reinforcement Learning with Dynamic Multi-Reward Weighting for
Multi-Style Controllable Generation
- Title(参考訳): マルチスタイル制御型生成のための動的マルチリワード重み付けによる強化学習
- Authors: Karin de Langis, Ryan Koo, Dongyeop Kang
- Abstract要約: 人間はしばしば複数のスタイルを同時に使用する。
マルチスタイル生成のための強化学習手法として,複数スタイル報酬の様々な定式化について検討する。
複数のスタイル属性を持つRLパイプラインのコードとデータはすべて、公開されている。
- 参考スコア(独自算出の注目度): 17.937198263444046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Style is an integral component of text that expresses a diverse set of
information, including interpersonal dynamics (e.g. formality) and the author's
emotions or attitudes (e.g. disgust). Humans often employ multiple styles
simultaneously. An open question is how large language models can be explicitly
controlled so that they weave together target styles when generating text: for
example, to produce text that is both negative and non-toxic. Previous work
investigates the controlled generation of a single style, or else controlled
generation of a style and other attributes. In this paper, we expand this into
controlling multiple styles simultaneously. Specifically, we investigate
various formulations of multiple style rewards for a reinforcement learning
(RL) approach to controlled multi-style generation. These reward formulations
include calibrated outputs from discriminators and dynamic weighting by
discriminator gradient magnitudes. We find that dynamic weighting generally
outperforms static weighting approaches, and we explore its effectiveness in 2-
and 3-style control, even compared to strong baselines like plug-and-play
model. All code and data for RL pipelines with multiple style attributes will
be publicly available.
- Abstract(参考訳): スタイルは、対人関係のダイナミクス(形式性など)や著者の感情や態度(嫌悪感など)を含む多様な情報を表現するテキストの不可欠な構成要素である。
人間はしばしば複数のスタイルを同時に使用する。
オープンな疑問は、大きな言語モデルがどのように明示的に制御され、テキストを生成する際にターゲットスタイルを織り合わせるかである。
以前の研究では、単一のスタイルの生成、あるいはスタイルやその他の属性の制御された生成を調査している。
本稿では,複数のスタイルを同時に制御できるように拡張する。
具体的には、強化学習(RL)による多型生成のための多型報酬の様々な定式化について検討する。
これらの報酬の定式化には、判別器からの校正出力と、判別器勾配等級による動的重み付けが含まれる。
動的重み付けは静的重み付けアプローチよりも一般的に優れており,プラグ・アンド・プレイモデルのような強力なベースラインと比較しても,その効果を2・3スタイルの制御で検討する。
複数のスタイル属性を持つRLパイプラインのコードとデータはすべて公開されている。
関連論文リスト
- Say Anything with Any Style [9.50806457742173]
Anything withAny Styleは、学習したスタイルのコードブックで生成モデルを介して、個別のスタイル表現をクエリします。
提案手法は, リップ同期とスタイル表現の両方の観点から, 最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-11T01:20:03Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - STEER: Unified Style Transfer with Expert Reinforcement [71.3995732115262]
STEER: Unified Style Transfer with Expert Reinforcementは、スタイル転送のための限られた並列データという課題を克服するために開発された、統一されたフレームワークである。
STEERは堅牢で、ドメイン外のデータでスタイル転送機能を維持し、様々なスタイルでほぼすべてのベースラインを超越している。
論文 参考訳(メタデータ) (2023-11-13T09:02:30Z) - GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents [3.229105662984031]
GestureDiffuCLIPは、フレキシブルなスタイル制御を備えたリアルでスタイル化された音声合成ジェスチャを合成するためのニューラルネットワークフレームワークである。
本システムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,CLIP表現をジェネレータに注入する。
我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することができる。
論文 参考訳(メタデータ) (2023-03-26T03:35:46Z) - Audience-Centric Natural Language Generation via Style Infusion [5.6732899077715375]
本稿では,事前学習された言語生成モデルにおける聴衆のスタイル的嗜好に影響を及ぼす,新しいスタイル注入の課題を提案する。
限定的な人間の判断を利用して、スタイル分析モデルをブートストラップし、シードセットの判断を強化する。
我々の注入アプローチは、ジェネリックテキストプロンプトを用いた魅力的なスタイル化された例を生成することができる。
論文 参考訳(メタデータ) (2023-01-24T19:57:50Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - DyStyle: Dynamic Neural Network for Multi-Attribute-Conditioned Style
Editing [12.80013698957431]
属性条件付きスタイル編集を行うために動的スタイル操作ネットワーク(DyStyle)を提案する。
DyStyleネットワークの効率的かつ安定したトレーニングのために、新しい容易かつハードなトレーニング手順が導入された。
提案手法では,複数の数値属性とバイナリ属性に沿って細粒度な不整合編集を行う。
論文 参考訳(メタデータ) (2021-09-22T13:50:51Z) - Multi-type Disentanglement without Adversarial Training [48.51678740102892]
潜在空間を分離することで自然言語のスタイルを制御することは、解釈可能な機械学習への重要なステップである。
本稿では,各スタイルの値に一意な表現を与える統一分布制御法を提案する。
また,スタイル・コンテントの絡み合いや複数のスタイルタイプ間の絡み合いを実現するために,複数の損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-16T11:47:18Z) - Multi-Style Transfer with Discriminative Feedback on Disjoint Corpus [9.793194158416854]
スタイル転送は、非並列コーパスを用いた自然言語生成において広く研究されている。
既存のアプローチの共通の欠点は、すべてのスタイリスティックな次元にわたるジョイントアノテーションの前提条件である。
入力テキストの内容を保存しながら、複数のスタイルのスタイルを制御できるモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-10-22T10:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。