論文の概要: MEGATRON-CNTRL: Controllable Story Generation with External Knowledge
Using Large-Scale Language Models
- arxiv url: http://arxiv.org/abs/2010.00840v1
- Date: Fri, 2 Oct 2020 08:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:33:53.039023
- Title: MEGATRON-CNTRL: Controllable Story Generation with External Knowledge
Using Large-Scale Language Models
- Title(参考訳): メガトロンCNTRL:大規模言語モデルを用いた外部知識による制御可能なストーリー生成
- Authors: Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Raul Puri, Pascale Fung,
Anima Anandkumar and Bryan Catanzaro
- Abstract要約: 本稿では,大規模言語モデルを用いた新しいフレームワークを提案し,外部知識ベースを組み込んだテキスト生成制御を提案する。
本フレームワークは,キーワード予測器,知識検索器,文脈知識ランキング器,条件付きテキスト生成器から構成される。
実験の結果、我々のモデルは、ROCストーリーデータセットの以前の作業と比較して、反復性が低く、多様性が低い、より流動的で、一貫性があり、一貫性のあるストーリーを生成します。
- 参考スコア(独自算出の注目度): 98.53511229517463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing pre-trained large language models have shown unparalleled generative
capabilities. However, they are not controllable. In this paper, we propose
MEGATRON-CNTRL, a novel framework that uses large-scale language models and
adds control to text generation by incorporating an external knowledge base.
Our framework consists of a keyword predictor, a knowledge retriever, a
contextual knowledge ranker, and a conditional text generator. As we do not
have access to ground-truth supervision for the knowledge ranker, we make use
of weak supervision from sentence embedding. The empirical results show that
our model generates more fluent, consistent, and coherent stories with less
repetition and higher diversity compared to prior work on the ROC story
dataset. We showcase the controllability of our model by replacing the keywords
used to generate stories and re-running the generation process. Human
evaluation results show that 77.5% of these stories are successfully controlled
by the new keywords. Furthermore, by scaling our model from 124 million to 8.3
billion parameters we demonstrate that larger models improve both the quality
of generation (from 74.5% to 93.0% for consistency) and controllability (from
77.5% to 91.5%).
- Abstract(参考訳): 既存の訓練済みの大規模言語モデルは、非並列な生成能力を示している。
しかし、それらは制御できない。
本稿では,megatron-cntrlを提案する。megatron-cntrlは,大規模言語モデルを使用し,外部知識ベースを組み込んだテキスト生成制御を付加する新しいフレームワークである。
本フレームワークは,キーワード予測器,知識検索器,文脈知識ランキング器,条件付きテキスト生成器から構成される。
知識ランク付け者に対する基幹的監督へのアクセスがないため、文埋め込みによる弱い監督を活用できる。
実験結果から,本モデルは,rocストーリーデータセットの先行作業よりも,反復性や多様性の少ない,より流動的で一貫性のある,一貫性のあるストーリを生成できることがわかった。
ストーリーの生成や生成プロセスの再実行に使用されるキーワードを置き換えることで、モデルの制御可能性を紹介します。
人的評価の結果、77.5%のストーリーが新しいキーワードによってうまく制御されていることが示されている。
さらに、我々のモデルを1億1400万から830億のパラメータにスケールすることで、より大きなモデルが生成の品質(一貫性のために74.5%から93.0%)と制御性(77.5%から91.5%)の両方を改善することを示した。
関連論文リスト
- Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - MOCHA: A Multi-Task Training Approach for Coherent Text Generation from
Cognitive Perspective [22.69509556890676]
本稿では,文章の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。
我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-10-26T11:55:41Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。