論文の概要: Deep Language Networks: Joint Prompt Training of Stacked LLMs using
Variational Inference
- arxiv url: http://arxiv.org/abs/2306.12509v1
- Date: Wed, 21 Jun 2023 18:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:34:40.459905
- Title: Deep Language Networks: Joint Prompt Training of Stacked LLMs using
Variational Inference
- Title(参考訳): 深層言語ネットワーク:変分推論を用いた積み重ねLLMの連発学習
- Authors: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Matheus
Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner,
Nicolas Le Roux
- Abstract要約: 我々は、大きな言語モデル(LLM)を、学習可能なパラメータが各レイヤの自然言語エンハンプットであるネットワーク内のエンハング層とみなす。
私たちはスタックアーキテクチャをemphDeep Language Network (DLN)と呼びます。
- 参考スコア(独自算出の注目度): 80.2866773720013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We view large language models (LLMs) as stochastic \emph{language layers} in
a network, where the learnable parameters are the natural language
\emph{prompts} at each layer. We stack two such layers, feeding the output of
one layer to the next. We call the stacked architecture a \emph{Deep Language
Network} (DLN). We first show how to effectively perform prompt optimization
for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs
(DLN-2), where two prompts must be learnt. We consider the output of the first
layer as a latent variable to marginalize, and devise a variational inference
algorithm for joint prompt training. A DLN-2 reaches higher performance than a
single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the
network is smaller and less powerful. The DLN code is open source:
https://github.com/microsoft/deep-language-networks .
- Abstract(参考訳): 我々は,大規模言語モデル(LLMs)をネットワーク内の確率的 \emph{言語層とみなし,学習可能なパラメータは各層における自然言語 \emph{prompts} である。
このようなレイヤを2つ積み重ねて,ひとつのレイヤの出力を次のレイヤに供給します。
我々はスタックアーキテクチャを \emph{deep language network} (dln)と呼ぶ。
まず,1層言語ネットワーク(dln-1)の最適化を効果的に行う方法を示す。
次に、2つのプロンプトを学ぶ必要がある2層dln(dln-2)のトレーニング方法を示す。
我々は,第1層の出力を残差化のための潜伏変数とみなし,共同学習のための変分推論アルゴリズムを考案する。
DLN-2は単一層よりも高い性能に到達し、ネットワーク内の各LCMが小さく、より強力でない場合でも、時には数ショットのGPT-4に匹敵する。
dlnコードはオープンソースである。 https://github.com/microsoft/deep-language-networks。
関連論文リスト
- Can we obtain significant success in RST discourse parsing by using
Large Language Models? [32.94244684710954]
デコーダのみの大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクに大きな影響を与えている。
本稿では,LLMがRST(Rhetorical Structure Theory)の言論解析にいかに有用かを検討する。
RST-DT, Instr-DT, GUMコーパスの3つのベンチマークデータセットによる実験結果から, ボトムアップ戦略に700億のパラメータを持つLlama 2が, 有意な差を示した。
論文 参考訳(メタデータ) (2024-03-08T05:34:29Z) - Not all Layers of LLMs are Necessary during Inference [68.88671495401483]
LLM(Large Language Models)の理想的な推論段階は、その能力を維持しながら少ない計算資源を利用できる。
本稿では,AdaInfer という単純なアルゴリズムを用いて,入力インスタンスを適応的に推定する手法を提案する。
実験によると、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを削減し、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Investigating the Effectiveness of Task-Agnostic Prefix Prompt for
Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。
我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文 参考訳(メタデータ) (2023-02-28T16:06:35Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。