論文の概要: A Simple Explanation for the Phase Transition in Large Language Models
with List Decoding
- arxiv url: http://arxiv.org/abs/2303.13112v1
- Date: Thu, 23 Mar 2023 09:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:03:06.709683
- Title: A Simple Explanation for the Phase Transition in Large Language Models
with List Decoding
- Title(参考訳): リスト復号化を伴う大規模言語モデルの相転移に関する簡単な説明
- Authors: Cheng-Shang Chang
- Abstract要約: 大規模言語モデル(LLM)は,小モデルに存在しない創発的能力を示す。
各ステップに候補シーケンスのリストを保持するリストデコーダを使用し、最後に出力シーケンスを生成する。
- 参考スコア(独自算出の注目度): 3.898689841227059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various recent experimental results show that large language models (LLM)
exhibit emergent abilities that are not present in small models. System
performance is greatly improved after passing a certain critical threshold of
scale. In this letter, we provide a simple explanation for such a phase
transition phenomenon. For this, we model an LLM as a sequence-to-sequence
random function. Instead of using instant generation at each step, we use a
list decoder that keeps a list of candidate sequences at each step and defers
the generation of the output sequence at the end. We show that there is a
critical threshold such that the expected number of erroneous candidate
sequences remains bounded when an LLM is below the threshold, and it grows
exponentially when an LLM is above the threshold. Such a threshold is related
to the basic reproduction number in a contagious disease.
- Abstract(参考訳): 近年, 大規模言語モデル (LLM) は, 小モデルに存在しない創発的能力を示すことが示されている。
システム性能は、一定の臨界しきい値を超えると大幅に向上する。
本稿では,このような相転移現象の簡単な説明を提供する。
そこで我々は,LLMをシーケンス対シーケンスランダム関数としてモデル化する。
各ステップでインスタント生成を使用する代わりに、各ステップで候補シーケンスのリストを保持し、最後に出力シーケンスの生成を否定するリストデコーダを使用します。
本研究では, LLMがしきい値以下である場合に, 予測される誤候補列数が有界であり, LLMがしきい値以上である場合には指数関数的に増大することを示す。
このような閾値は、伝染病の基本的な複製数と関連している。
関連論文リスト
- σ-GPTs: A New Approach to Autoregressive Models [19.84252724050016]
出力に位置エンコーディングを追加するだけで、この順序をオンザフライ・イン・サンプルで変調できることを示す。
我々は,言語モデリング,パス解決,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-15T08:22:47Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Large Language Models Are Zero-Shot Time Series Forecasters [53.24444237828548]
時系列を数値桁の列として符号化することにより、テキストの次トーケン予測として時系列予測をフレーム化することができる。
GPT-3 や LLaMA-2 のような大規模言語モデル (LLM) は、ダウンストリームタスクでトレーニングされた目的構築された時系列モデルの性能に匹敵する、あるいはそれ以上のレベルにおいて、驚くほどゼロショット・エクスポレート・時系列を生成できる。
論文 参考訳(メタデータ) (2023-10-11T19:01:28Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Calibrating Sequence likelihood Improves Conditional Language Generation [39.35161650538767]
条件言語モデルは主に最大推定(MLE)を用いて訓練される
MLEの訓練されたモデルは、文脈が与えられた場合、高い確率を可算列に割り当てるが、モデル確率は、品質によって正確なランク順生成列を割り当てないことが多い。
本稿では,モデルの潜在空間における参照シーケンスとの整合性を高めるために,モデル生成シーケンスのキャリブレーションを行うSLiC(Sequence chance calibration)を提案する。
論文 参考訳(メタデータ) (2022-09-30T19:16:16Z) - Diffusion-LM Improves Controllable Text Generation [80.50044830018442]
言語モデル(LM)の振る舞いを再学習せずに制御することは、自然言語生成において大きな問題である。
拡散-LMと呼ばれる連続拡散に基づく非自己回帰型言語モデルを開発した。
本研究では,6つのきめ細粒度制御タスクに対してDiffusion-LMの制御に成功したことを実証した。
論文 参考訳(メタデータ) (2022-05-27T20:12:09Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Adversarial Encoder-Multi-Task-Decoder for Multi-Stage Processes [5.933303832684138]
多段階プロセスでは、決定は順序付けられた段階の順序で行われる。
本稿では,AAE(Adversarial Autoencoder),MTL(Multi-task Learning),MLSSL(Multi-label semi-supervised Learning)を組み合わせたフレームワークを提案する。
異なるドメインの実際のデータを用いて、我々のアプローチは他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-15T19:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。