Fugu-MT 論文翻訳(概要): Reinforcement Learning with Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation

論文の概要: Reinforcement Learning with Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation

arxiv url: http://arxiv.org/abs/2402.14146v1
Date: Wed, 21 Feb 2024 22:02:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 17:15:14.713133
Title: Reinforcement Learning with Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation
Title（参考訳）: マルチスタイル制御型生成のための動的マルチリワード重み付けによる強化学習
Authors: Karin de Langis, Ryan Koo, Dongyeop Kang
Abstract要約: 人間はしばしば複数のスタイルを同時に使用する。マルチスタイル生成のための強化学習手法として,複数スタイル報酬の様々な定式化について検討する。複数のスタイル属性を持つRLパイプラインのコードとデータはすべて、公開されている。
参考スコア（独自算出の注目度）: 17.937198263444046
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Style is an integral component of text that expresses a diverse set of information, including interpersonal dynamics (e.g. formality) and the author's emotions or attitudes (e.g. disgust). Humans often employ multiple styles simultaneously. An open question is how large language models can be explicitly controlled so that they weave together target styles when generating text: for example, to produce text that is both negative and non-toxic. Previous work investigates the controlled generation of a single style, or else controlled generation of a style and other attributes. In this paper, we expand this into controlling multiple styles simultaneously. Specifically, we investigate various formulations of multiple style rewards for a reinforcement learning (RL) approach to controlled multi-style generation. These reward formulations include calibrated outputs from discriminators and dynamic weighting by discriminator gradient magnitudes. We find that dynamic weighting generally outperforms static weighting approaches, and we explore its effectiveness in 2- and 3-style control, even compared to strong baselines like plug-and-play model. All code and data for RL pipelines with multiple style attributes will be publicly available.
Abstract（参考訳）: スタイルは、対人関係のダイナミクス(形式性など)や著者の感情や態度(嫌悪感など)を含む多様な情報を表現するテキストの不可欠な構成要素である。人間はしばしば複数のスタイルを同時に使用する。オープンな疑問は、大きな言語モデルがどのように明示的に制御され、テキストを生成する際にターゲットスタイルを織り合わせるかである。以前の研究では、単一のスタイルの生成、あるいはスタイルやその他の属性の制御された生成を調査している。本稿では,複数のスタイルを同時に制御できるように拡張する。具体的には、強化学習(RL)による多型生成のための多型報酬の様々な定式化について検討する。これらの報酬の定式化には、判別器からの校正出力と、判別器勾配等級による動的重み付けが含まれる。動的重み付けは静的重み付けアプローチよりも一般的に優れており,プラグ・アンド・プレイモデルのような強力なベースラインと比較しても,その効果を2・3スタイルの制御で検討する。複数のスタイル属性を持つRLパイプラインのコードとデータはすべて公開されている。

関連論文リスト

Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文参考訳（メタデータ） (2024-05-24T07:19:40Z)
Personalized Text Generation with Fine-Grained Linguistic Control [9.668216418094316]
複数の言語的次元にまたがる微粒な属性の制御に焦点をあてる。生成モデルを訓練するための新しいベンチマークを導入し、パーソナライズされたテキストを生成する能力を評価する。
論文参考訳（メタデータ） (2024-02-07T14:41:08Z)
Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。 SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文参考訳（メタデータ） (2023-11-03T00:17:08Z)
GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents [3.229105662984031]
GestureDiffuCLIPは、フレキシブルなスタイル制御を備えたリアルでスタイル化された音声合成ジェスチャを合成するためのニューラルネットワークフレームワークである。本システムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,CLIP表現をジェネレータに注入する。我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することができる。
論文参考訳（メタデータ） (2023-03-26T03:35:46Z)
Audience-Centric Natural Language Generation via Style Infusion [5.6732899077715375]
本稿では,事前学習された言語生成モデルにおける聴衆のスタイル的嗜好に影響を及ぼす,新しいスタイル注入の課題を提案する。限定的な人間の判断を利用して、スタイル分析モデルをブートストラップし、シードセットの判断を強化する。我々の注入アプローチは、ジェネリックテキストプロンプトを用いた魅力的なスタイル化された例を生成することができる。
論文参考訳（メタデータ） (2023-01-24T19:57:50Z)
Controlling Styles in Neural Machine Translation with Activation Prompt [34.53183905545485]
ニューラルネットワーク翻訳(NMT)のスタイル制御は,ユーザエクスペリエンスの向上に不可欠であるため,広く注目を集めている。本稿では,NMTのスタイル制御のための新しいベンチマークとアプローチを提案する。本稿では,スタイルアクティベーションプロンプト (StyleAP) という手法を提案する。
論文参考訳（メタデータ） (2022-12-17T16:05:50Z)
ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文参考訳（メタデータ） (2022-11-19T03:50:33Z)
Controllable Natural Language Generation with Contrastive Prefixes [120.12778570283956]
GPT2生成は、自然言語生成を操るために、プレフィックスと呼ばれる小さな属性固有のベクトルのセットを利用する。単一アスペクト制御のための接頭辞を訓練するための新しい教師なし手法と教師なし手法を提案する。単一アスペクト制御と多アスペクト制御の両方の実験結果から,提案手法は高い言語的品質を維持しつつ,所望の属性に向かって生成を導くことができることがわかった。
論文参考訳（メタデータ） (2022-02-27T00:31:03Z)
Prototype-to-Style: Dialogue Generation with Style-Aware Editing on Retrieval Memory [65.98002918470543]
文体対話生成の課題に対処する新しいプロトタイプ・ツー・スタイルのフレームワークを提案する。このフレームワークは、IR(Information Retrieval)システムを使用して、検索した応答から応答プロトタイプを抽出する。スタイリスティック応答生成器は、プロトタイプと所望の言語スタイルをモデル入力として、高品質でスタイリスティックな応答を得る。
論文参考訳（メタデータ） (2020-04-05T14:36:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。