論文の概要: Discovering Non-monotonic Autoregressive Orderings with Variational
Inference
- arxiv url: http://arxiv.org/abs/2110.15797v1
- Date: Wed, 27 Oct 2021 16:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 13:42:38.049526
- Title: Discovering Non-monotonic Autoregressive Orderings with Variational
Inference
- Title(参考訳): 変分推論による非単調自己回帰順序の発見
- Authors: Xuanlin Li, Brandon Trabucco, Dong Huk Park, Michael Luo, Sheng Shen,
Trevor Darrell, Yang Gao
- Abstract要約: 我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
- 参考スコア(独自算出の注目度): 67.27561153666211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The predominant approach for language modeling is to process sequences from
left to right, but this eliminates a source of information: the order by which
the sequence was generated. One strategy to recover this information is to
decode both the content and ordering of tokens. Existing approaches supervise
content and ordering by designing problem-specific loss functions and
pre-training with an ordering pre-selected. Other recent works use iterative
search to discover problem-specific orderings for training, but suffer from
high time complexity and cannot be efficiently parallelized. We address these
limitations with an unsupervised parallelizable learner that discovers
high-quality generation orders purely from training data -- no domain knowledge
required. The learner contains an encoder network and decoder language model
that perform variational inference with autoregressive orders (represented as
permutation matrices) as latent variables. The corresponding ELBO is not
differentiable, so we develop a practical algorithm for end-to-end optimization
using policy gradients. We implement the encoder as a Transformer with
non-causal attention that outputs permutations in one forward pass.
Permutations then serve as target generation orders for training an
insertion-based Transformer language model. Empirical results in language
modeling tasks demonstrate that our method is context-aware and discovers
orderings that are competitive with or even better than fixed orders.
- Abstract(参考訳): 言語モデリングの主要なアプローチは、シーケンスを左から右に処理することだが、これは、シーケンスが生成される順序である情報のソースを排除している。
この情報を復元するための1つの戦略は、トークンの内容と順序の両方をデコードすることである。
既存のアプローチでは、問題固有の損失関数を設計し、事前選択した順序で事前トレーニングすることで、コンテンツと順序を監督する。
その他の最近の研究では、反復探索を用いて、トレーニングのための問題固有の順序を見つけるが、高い時間の複雑さに苦しめられ、効率的に並列化できない。
これらの制限に対処するため、教師なしの並列化可能な学習者が、訓練データから純粋に高品質な生成順序を発見する。
学習者は、遅延変数として自己回帰順序(置換行列として表される)で変分推論を行うエンコーダネットワークとデコーダ言語モデルを含む。
対応するELBOは微分可能ではないため,ポリシー勾配を用いたエンドツーエンド最適化のための実用的なアルゴリズムを開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
置換は挿入ベースのTransformer言語モデルをトレーニングするためのターゲット生成命令として機能する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つける。
関連論文リスト
- GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Novel Ordering-based Approaches for Causal Structure Learning in the
Presence of Unobserved Variables [22.201414668050123]
我々は、構造学習のc-orderよりも有利なため、取り外し可能な順序(r-order)と呼ばれる新しい順序を提唱する。
実世界のネットワークとランダムに生成されたネットワークにおける提案手法の性能と拡張性を評価する。
論文 参考訳(メタデータ) (2022-08-14T23:09:55Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Learning and Analyzing Generation Order for Undirected Sequence Models [86.10875837475783]
我々は、強化学習を通して、事前訓練された非直接翻訳モデルの生成順序を学習する政策を訓練する。
学習順序による翻訳は,マンシモフらの学習順序によって左から右へ復号された出力や復号された出力よりも高いBLEUスコアが得られることを示す。
我々の発見は、非方向性生成モデルのメカニズムに関するさらなる洞察を与え、この方向のさらなる研究を奨励する可能性がある。
論文 参考訳(メタデータ) (2021-12-16T18:29:07Z) - Iterative Decoding for Compositional Generalization in Transformers [5.269770493488338]
シーケンシャル・ツー・シークエンス・ラーニングでは、トランスフォーマーは極端に長い例に対して正しい出力を予測できないことが多い。
本稿では,Seq2seq学習に代わる反復復号法を提案する。
反復復号により訓練されたトランスフォーマーはPCFGデータセット上でセq2seqよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T14:52:25Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - SparseGAN: Sparse Generative Adversarial Network for Text Generation [8.634962333084724]
本稿では,識別器への入力として,意味解釈可能ながスパース文表現を生成するスパースGANを提案する。
このような意味豊かな表現により、効率の良い対人訓練のための不要なノイズを低減できるだけでなく、学習過程全体を完全に差別化できる。
論文 参考訳(メタデータ) (2021-03-22T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。