論文の概要: Discovering Non-monotonic Autoregressive Orderings with Variational
Inference
- arxiv url: http://arxiv.org/abs/2110.15797v1
- Date: Wed, 27 Oct 2021 16:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 13:42:38.049526
- Title: Discovering Non-monotonic Autoregressive Orderings with Variational
Inference
- Title(参考訳): 変分推論による非単調自己回帰順序の発見
- Authors: Xuanlin Li, Brandon Trabucco, Dong Huk Park, Michael Luo, Sheng Shen,
Trevor Darrell, Yang Gao
- Abstract要約: 我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
- 参考スコア(独自算出の注目度): 67.27561153666211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The predominant approach for language modeling is to process sequences from
left to right, but this eliminates a source of information: the order by which
the sequence was generated. One strategy to recover this information is to
decode both the content and ordering of tokens. Existing approaches supervise
content and ordering by designing problem-specific loss functions and
pre-training with an ordering pre-selected. Other recent works use iterative
search to discover problem-specific orderings for training, but suffer from
high time complexity and cannot be efficiently parallelized. We address these
limitations with an unsupervised parallelizable learner that discovers
high-quality generation orders purely from training data -- no domain knowledge
required. The learner contains an encoder network and decoder language model
that perform variational inference with autoregressive orders (represented as
permutation matrices) as latent variables. The corresponding ELBO is not
differentiable, so we develop a practical algorithm for end-to-end optimization
using policy gradients. We implement the encoder as a Transformer with
non-causal attention that outputs permutations in one forward pass.
Permutations then serve as target generation orders for training an
insertion-based Transformer language model. Empirical results in language
modeling tasks demonstrate that our method is context-aware and discovers
orderings that are competitive with or even better than fixed orders.
- Abstract(参考訳): 言語モデリングの主要なアプローチは、シーケンスを左から右に処理することだが、これは、シーケンスが生成される順序である情報のソースを排除している。
この情報を復元するための1つの戦略は、トークンの内容と順序の両方をデコードすることである。
既存のアプローチでは、問題固有の損失関数を設計し、事前選択した順序で事前トレーニングすることで、コンテンツと順序を監督する。
その他の最近の研究では、反復探索を用いて、トレーニングのための問題固有の順序を見つけるが、高い時間の複雑さに苦しめられ、効率的に並列化できない。
これらの制限に対処するため、教師なしの並列化可能な学習者が、訓練データから純粋に高品質な生成順序を発見する。
学習者は、遅延変数として自己回帰順序(置換行列として表される)で変分推論を行うエンコーダネットワークとデコーダ言語モデルを含む。
対応するELBOは微分可能ではないため,ポリシー勾配を用いたエンドツーエンド最適化のための実用的なアルゴリズムを開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
置換は挿入ベースのTransformer言語モデルをトレーニングするためのターゲット生成命令として機能する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つける。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。
我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文 参考訳(メタデータ) (2024-06-04T16:09:13Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Learning and Analyzing Generation Order for Undirected Sequence Models [86.10875837475783]
我々は、強化学習を通して、事前訓練された非直接翻訳モデルの生成順序を学習する政策を訓練する。
学習順序による翻訳は,マンシモフらの学習順序によって左から右へ復号された出力や復号された出力よりも高いBLEUスコアが得られることを示す。
我々の発見は、非方向性生成モデルのメカニズムに関するさらなる洞察を与え、この方向のさらなる研究を奨励する可能性がある。
論文 参考訳(メタデータ) (2021-12-16T18:29:07Z) - SparseGAN: Sparse Generative Adversarial Network for Text Generation [8.634962333084724]
本稿では,識別器への入力として,意味解釈可能ながスパース文表現を生成するスパースGANを提案する。
このような意味豊かな表現により、効率の良い対人訓練のための不要なノイズを低減できるだけでなく、学習過程全体を完全に差別化できる。
論文 参考訳(メタデータ) (2021-03-22T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。