Fugu-MT 論文翻訳(概要): P$^3$LM: Probabilistically Permuted Prophet Language Modeling for Generative Pre-Training

論文の概要: P$^3$LM: Probabilistically Permuted Prophet Language Modeling for Generative Pre-Training

arxiv url: http://arxiv.org/abs/2210.12339v1
Date: Sat, 22 Oct 2022 03:50:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 15:49:40.636583
Title: P$^3$LM: Probabilistically Permuted Prophet Language Modeling for Generative Pre-Training
Title（参考訳）: p$^3$lm:確率的置換型予測型言語モデルによる生成前学習
Authors: Junwei Bao, Yifan Wang, Jiangyong Ying, Yeyun Gong, Jing Zhao, Youzheng Wu, Xiaodong He
Abstract要約: P$3$LMは確率的に置換された預言言語モデルである。順序対応トランスフォーマーデコーダで、順順にトークンを生成することを学ぶ。 GLGEベンチマークでは、要約のための4つのデータセットを含む実験が行われている。
参考スコア（独自算出の注目度）: 27.707324811241268
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Conventional autoregressive left-to-right (L2R) sequence generation faces two issues during decoding: limited to unidirectional target sequence modeling, and constrained on strong local dependencies. To address the aforementioned problem, we propose P$^3$LM, a probabilistically permuted prophet language model, which strengthens the modeling of bidirectional information and long token dependencies for sequence generation. Specifically, P$^3$LM learns to generate tokens in permuted order upon an order-aware transformer decoder, as well as to generate the corresponding future $N$ tokens with a multi-stream attention mechanism. Extensive experiments are conducted on the GLGE benchmark, which includes four datasets for summarization, two for question generation, one for conversational question answering, and one for dialog response generation, where P$^3$LM achieves state-of-the-art results compared with strong publicly available generative pre-training methods.
Abstract（参考訳）: 従来の自己回帰左から右へのシーケンス生成(L2R)はデコード中に2つの問題に直面している。上記の問題に対処するため,確率的に置換された預言型言語モデルであるP$^3$LMを提案する。具体的には、p$^3$lmは、オーダーアウェアトランスデコーダ上で順順にトークンを生成し、マルチストリームアテンション機構で対応する将来の$n$トークンを生成することを学習する。 GLGEベンチマークでは,要約のための4つのデータセット,質問生成のための2つのデータセット,対話型質問応答のための1つのデータセット,対話型応答生成のための1つのデータセットを含む。

関連論文リスト

Syntactic Control of Language Models by Posterior Inference [53.823006836309695]
言語モデルによって生成されたテキストの構文構造を制御することは、明快さ、スタイリスティックな一貫性、解釈可能性を必要とするアプリケーションにとって重要である。後部推論に基づくサンプリングアルゴリズムは、生成中に対象の選挙区構造を効果的に強制することができると論じる。提案手法では,提案分布からのサンプリングにより後続分布を推定するモンテカルロ法と,各生成したトークンが所望の構文構造に整合することを保証する統語タグを併用する。
論文参考訳（メタデータ） (2025-06-08T14:01:34Z)
Large Language Models are Locally Linear Mappings [0.0]
オープンウェイトな大言語モデルの推論操作を、入力シーケンスに対して正確に等価な線形システムにマッピングする。そのパワーと大域的非線形性にもかかわらず、現代のLSMは、ほぼ完全に局所的な線形分解によって解釈できる。
論文参考訳（メタデータ） (2025-05-30T07:08:33Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Transcormer: Transformer for Sentence Scoring with Sliding Language Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文参考訳（メタデータ） (2022-05-25T18:00:09Z)
Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文参考訳（メタデータ） (2020-12-18T15:53:50Z)
Exploring Neural Models for Parsing Natural Language into First-Order Logic [10.62143644603835]
英文を1次論理(FOL)に解析する際のニューラルモデルの有用性について検討する。自然言語文が与えられた場合のシーケンスマッピングタスクとしてFOL解析をモデル化し、LSTMを用いて中間表現に符号化し、次に対応するFOL式で述語を逐次生成するデコーダを用いる。
論文参考訳（メタデータ） (2020-02-16T09:22:32Z)
LAVA NAT: A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文参考訳（メタデータ） (2020-02-08T04:11:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。