論文の概要: Tractable Control for Autoregressive Language Generation
- arxiv url: http://arxiv.org/abs/2304.07438v4
- Date: Wed, 15 Nov 2023 23:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:44:24.487793
- Title: Tractable Control for Autoregressive Language Generation
- Title(参考訳): 自動回帰言語生成のためのトラクタブル制御
- Authors: Honghua Zhang, Meihua Dang, Nanyun Peng, Guy Van den Broeck
- Abstract要約: 本稿では,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。
本稿では,GeLaToが制約付きテキスト生成のための挑戦的ベンチマークにおいて,最先端のパフォーマンスを実現することを示す。
我々の研究は、大きな言語モデルを制御するための新しい道を開き、さらに表現力のあるTPMの開発を動機付けます。
- 参考スコア(独自算出の注目度): 82.79160918147852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of autoregressive large language models in text
generation, it remains a major challenge to generate text that satisfies
complex constraints: sampling from the conditional distribution
${\Pr}(\text{text} | \alpha)$ is intractable for even the simplest lexical
constraints $\alpha$. To overcome this challenge, we propose to use tractable
probabilistic models (TPMs) to impose lexical constraints in autoregressive
text generation models, which we refer to as GeLaTo (Generating Language with
Tractable Constraints). To demonstrate the effectiveness of this framework, we
use distilled hidden Markov models, where we can efficiently compute
${\Pr}(\text{text} | \alpha)$, to guide autoregressive generation from GPT2.
GeLaTo achieves state-of-the-art performance on challenging benchmarks for
constrained text generation (e.g., CommonGen), beating various strong baselines
by a large margin. Our work not only opens up new avenues for controlling large
language models but also motivates the development of more expressive TPMs.
- Abstract(参考訳): テキスト生成における自己回帰的な大規模言語モデルの成功にもかかわらず、複雑な制約を満たすテキストを生成することは依然として大きな課題である。
この課題を克服するため,我々は,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。
このフレームワークの有効性を示すために、蒸留された隠れマルコフモデルを使用し、GPT2から自己回帰生成を誘導するために${\Pr}(\text{text} | \alpha)$を効率的に計算できる。
GeLaToは制約付きテキスト生成(CommonGenなど)の挑戦的なベンチマークで最先端のパフォーマンスを実現し、様々な強力なベースラインを大きなマージンで上回る。
我々の研究は、大きな言語モデルを制御するための新しい道を開くだけでなく、より表現力のあるTPMの開発も動機付けている。
関連論文リスト
- Intertwining CP and NLP: The Generation of Unreasonably Constrained Sentences [49.86129209397701]
本稿では,この問題を解決するためにConstraints First Frameworkを提案する。
これは、言語特性とより古典的な制約を組み合わせた制約プログラミング手法によって解決される。
このアプローチの有効性は、より退屈な制約付きテキスト生成問題に取り組むことで実証される。
論文 参考訳(メタデータ) (2024-06-15T17:40:49Z) - Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding [75.06872859716049]
大規模言語モデル(LLM)は、テキスト生成の強力な能力を示している。
毒性や幻覚などの望ましくない行動が現れることがある。
将来制約付き生成問題としてテキスト生成の形式化を提案する。
論文 参考訳(メタデータ) (2023-12-11T06:35:33Z) - Controlled Text Generation via Language Model Arithmetic [7.687678490751105]
本稿では,大規模言語モデルの合成とバイアス化のための新しい推論フレームワークであるモデル演算を導入する。
モデル算術により生成したテキストのきめ細かい制御が可能であり, 毒性低減の課題において, 最先端の処理性能に優れることを示す。
論文 参考訳(メタデータ) (2023-11-24T13:41:12Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Constrained Sampling from Language Models via Langevin Dynamics in
Embedding Spaces [34.375537557235724]
本稿では,言語モデルのログ類似度を任意の微分可能な制約と組み合わせて1つのエネルギー関数にサンプリングする手法を提案する。
我々は,テキスト生成タスクのソフトな制約とハードな制約と,有害性回避,感情制御,キーワード誘導生成の競合する結果との組合せに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-25T08:09:03Z) - COLD Decoding: Energy-based Constrained Text Generation with Langevin
Dynamics [69.8062252611486]
コールドデコーディングは、既製の左から右の言語モデルに直接適用可能なフレキシブルなフレームワークである。
制約付き生成タスクの実験は、自動評価と人的評価の両方の観点から、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2022-02-23T18:59:27Z) - Directed Beam Search: Plug-and-Play Lexically Constrained Language
Generation [6.2211479935811775]
最先端の言語モデルは、管理可能な時間でスクラッチからトレーニングするには大きすぎる。
語彙制約付き言語生成のためのプラグイン・アンド・プレイ方式であるDirected Beam Search (DBS)を提案する。
論文 参考訳(メタデータ) (2020-12-31T03:05:44Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。