論文の概要: Critic-Guided Decoding for Controlled Text Generation
- arxiv url: http://arxiv.org/abs/2212.10938v1
- Date: Wed, 21 Dec 2022 11:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:56:38.938185
- Title: Critic-Guided Decoding for Controlled Text Generation
- Title(参考訳): テキスト生成制御のための批評家誘導デコード
- Authors: Minbeom Kim, Hwanhee Lee, Kang Min Yoo, Joonsuk Park, Hwaran Lee,
Kyomin Jung
- Abstract要約: 制御言語生成のための新しい批判復号法(CriticControl)を提案する。
具体的には,不特定報酬モデルからLMステアリング評論家を訓練するためにアクタ批判的枠組みを採用する。
提案手法は,言語モデルを凍結し,評論家と呼ばれる出力トークン分布を制御し,学習効率と安定性を向上させる。
- 参考スコア(独自算出の注目度): 26.74490141567982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Steering language generation towards objectives or away from undesired
content has been a long-standing goal in utilizing language models (LM). Recent
work has demonstrated reinforcement learning and weighted decoding as effective
approaches to achieve a higher level of language control and quality with pros
and cons. In this work, we propose a novel critic decoding method for
controlled language generation (CriticControl) that combines the strengths of
reinforcement learning and weighted decoding. Specifically, we adopt the
actor-critic framework to train an LM-steering critic from non-differentiable
reward models. And similar to weighted decoding, our method freezes the
language model and manipulates the output token distribution using called
critic, improving training efficiency and stability. Evaluation of our method
on three controlled generation tasks, namely topic control, sentiment control,
and detoxification, shows that our approach generates more coherent and
well-controlled texts than previous methods. In addition, CriticControl
demonstrates superior generalization ability in zero-shot settings. Human
evaluation studies also corroborate our findings.
- Abstract(参考訳): 言語モデル(LM)を活用する上で、望ましくないコンテンツに対する言語生成のステアリングは長年の目標であった。
近年の研究では、高レベルの言語制御と品質を達成するための効果的なアプローチとして、強化学習と重み付け復号が実証されている。
本研究では,強化学習の強みと重み付き復号の強みを組み合わせた,制御言語生成(criticcontrol)のための新しい批判的復号法を提案する。
具体的には,不特定報酬モデルからLMステアリング評論家を訓練するためにアクタ批判フレームワークを採用する。
また,重み付き復号法と同様に,言語モデルをフリーズし,コールド・レビューを用いて出力トークン分布を操作し,トレーニング効率と安定性を向上させる。
提案手法は,トピック制御,感情制御,デトキソフィケーションという3つの制御型生成タスクにおいて,従来の手法よりもコヒーレントでよく制御されたテキストを生成する。
さらに、CriticControlはゼロショット設定で優れた一般化能力を示す。
人的評価研究も我々の発見を裏付けている。
関連論文リスト
- LiFi: Lightweight Controlled Text Generation with Fine-Grained Control
Codes [46.74968005604948]
本稿では、制御されたテキスト生成のためのきめ細かい制御を備えた軽量なアプローチであるLIFIを提案する。
我々は、感情制御とトピック制御という従来の2つのタスクと、新たに提案された1つのタスクでLIFIを評価する。
論文 参考訳(メタデータ) (2024-02-10T11:53:48Z) - Anti-LM Decoding for Zero-shot In-context Machine Translation [59.26037416204157]
本研究は, 文脈内機械翻訳の弱点に対処するために, 減衰係数を付加したアンチランゲージモデルを提案する。
3つのモデルタイプとサイズ,3つの言語方向,およびグリージーデコーディングとビームサーチの両方に対して実験を行う。
論文 参考訳(メタデータ) (2023-11-14T17:09:43Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - FAST: Improving Controllability for Text Generation with Feedback Aware
Self-Training [25.75982440355576]
制御可能なテキスト生成システムは、しばしば制御コードを利用して、スタイルや長さといった出力の様々な特性を指示する。
NLPの因果推論に関する最近の研究に触発された本論文は、これらの制御符号に基づく条件付きテキスト生成アルゴリズムにおいて、これまで見過ごされていた欠陥を明らかにする。
トレーニングセットにおけるこれらの相関を減少させるための2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-06T19:00:51Z) - ContraCLM: Contrastive Learning For Causal Language Model [54.828635613501376]
トークンレベルとシーケンスレベルの両方において,新しいコントラスト学習フレームワークであるContraCLMを提案する。
ContraCLMは表現の識別を強化し、エンコーダのみのモデルとのギャップを埋めることを示す。
論文 参考訳(メタデータ) (2022-10-03T18:56:35Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。