Fugu-MT 論文翻訳(概要): A Simple Explanation for the Phase Transition in Large Language Models with List Decoding

論文の概要: A Simple Explanation for the Phase Transition in Large Language Models with List Decoding

arxiv url: http://arxiv.org/abs/2303.13112v1
Date: Thu, 23 Mar 2023 09:00:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 15:03:06.709683
Title: A Simple Explanation for the Phase Transition in Large Language Models with List Decoding
Title（参考訳）: リスト復号化を伴う大規模言語モデルの相転移に関する簡単な説明
Authors: Cheng-Shang Chang
Abstract要約: 大規模言語モデル(LLM)は,小モデルに存在しない創発的能力を示す。各ステップに候補シーケンスのリストを保持するリストデコーダを使用し、最後に出力シーケンスを生成する。
参考スコア（独自算出の注目度）: 3.898689841227059
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Various recent experimental results show that large language models (LLM) exhibit emergent abilities that are not present in small models. System performance is greatly improved after passing a certain critical threshold of scale. In this letter, we provide a simple explanation for such a phase transition phenomenon. For this, we model an LLM as a sequence-to-sequence random function. Instead of using instant generation at each step, we use a list decoder that keeps a list of candidate sequences at each step and defers the generation of the output sequence at the end. We show that there is a critical threshold such that the expected number of erroneous candidate sequences remains bounded when an LLM is below the threshold, and it grows exponentially when an LLM is above the threshold. Such a threshold is related to the basic reproduction number in a contagious disease.
Abstract（参考訳）: 近年, 大規模言語モデル (LLM) は, 小モデルに存在しない創発的能力を示すことが示されている。システム性能は、一定の臨界しきい値を超えると大幅に向上する。本稿では,このような相転移現象の簡単な説明を提供する。そこで我々は,LLMをシーケンス対シーケンスランダム関数としてモデル化する。各ステップでインスタント生成を使用する代わりに、各ステップで候補シーケンスのリストを保持し、最後に出力シーケンスの生成を否定するリストデコーダを使用します。本研究では, LLMがしきい値以下である場合に, 予測される誤候補列数が有界であり, LLMがしきい値以上である場合には指数関数的に増大することを示す。このような閾値は、伝染病の基本的な複製数と関連している。

関連論文リスト

Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。重要な課題は、時に事実的に誤った答えを生じさせることである。本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:59:48Z)
The Hyperfitting Phenomenon: Sharpening and Stabilizing LLMs for Open-Ended Text Generation [15.904856111636851]
本稿では,非常に小さなデータセット上で事前学習した大規模言語モデルに過度に適合する反直感的な一般化結果を紹介する。これらのモデルをさらに微調整して、少数のサンプルに対してほぼゼロに近いトレーニング損失を達成することによって、長いシーケンス生成能力が大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-12-05T16:34:20Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文参考訳（メタデータ） (2024-06-11T21:44:49Z)
Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文参考訳（メタデータ） (2024-06-04T16:09:13Z)
σ-GPTs: A New Approach to Autoregressive Models [19.84252724050016]
出力に位置エンコーディングを追加するだけで、この順序をオンザフライ・イン・サンプルで変調できることを示す。我々は,言語モデリング,パス解決,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行った。
論文参考訳（メタデータ） (2024-04-15T08:22:47Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文参考訳（メタデータ） (2023-06-08T17:59:58Z)
Diffusion-LM Improves Controllable Text Generation [80.50044830018442]
言語モデル(LM)の振る舞いを再学習せずに制御することは、自然言語生成において大きな問題である。拡散-LMと呼ばれる連続拡散に基づく非自己回帰型言語モデルを開発した。本研究では,6つのきめ細粒度制御タスクに対してDiffusion-LMの制御に成功したことを実証した。
論文参考訳（メタデータ） (2022-05-27T20:12:09Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)
Adversarial Encoder-Multi-Task-Decoder for Multi-Stage Processes [5.933303832684138]
多段階プロセスでは、決定は順序付けられた段階の順序で行われる。本稿では,AAE(Adversarial Autoencoder),MTL(Multi-task Learning),MLSSL(Multi-label semi-supervised Learning)を組み合わせたフレームワークを提案する。異なるドメインの実際のデータを用いて、我々のアプローチは他の最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-15T19:30:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。