論文の概要: Joint Prompt Optimization of Stacked LLMs using Variational Inference
- arxiv url: http://arxiv.org/abs/2306.12509v2
- Date: Mon, 4 Dec 2023 15:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 23:10:15.218492
- Title: Joint Prompt Optimization of Stacked LLMs using Variational Inference
- Title(参考訳): 変分推論を用いた積層LDMの連成プロンプト最適化
- Authors: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Matheus
Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner,
Nicolas Le Roux
- Abstract要約: 大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
- 参考スコア(独自算出の注目度): 66.04409787899583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be seen as atomic units of computation
mapping sequences to a distribution over sequences. Thus, they can be seen as
stochastic language layers in a language network, where the learnable
parameters are the natural language prompts at each layer. By stacking two such
layers and feeding the output of one layer to the next, we obtain a Deep
Language Network (DLN). We first show how to effectively perform prompt
optimization for a 1-Layer language network (DLN-1). Then, we present an
extension that applies to 2-layer DLNs (DLN-2), where two prompts must be
learned. The key idea is to consider the output of the first layer as a latent
variable, which requires inference, and prompts to be learned as the parameters
of the generative distribution. We first test the effectiveness of DLN-1 in
multiple reasoning and natural language understanding tasks. Then, we show that
DLN-2 can reach higher performance than a single layer, showing promise that we
might reach comparable performance to GPT-4, even when each LLM in the network
is smaller and less powerful.
- Abstract(参考訳): 大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
したがって、学習可能なパラメータが各レイヤの自然言語プロンプトであるような、言語ネットワークの確率的言語層として見ることができる。
2つの層を積み重ねて1つの層の出力を次の層に供給することで、ディープ言語ネットワーク(DLN)を得る。
まず,1層言語ネットワーク(dln-1)の最適化を効果的に行う方法を示す。
次に、2層dln (dln-2) に適用する拡張を行い、2つのプロンプトを学習する。
鍵となる考え方は、第1層の出力を潜在変数として考慮し、推論を必要とし、生成分布のパラメータとして学習するよう促すことである。
まず,複数の推論および自然言語理解タスクにおけるDLN-1の有効性を検証する。
そして,DLN-2 は単一層よりも高い性能を達成でき,ネットワーク内の各 LLM が小さく,低電力でも GPT-4 に匹敵する性能に到達できることを示す。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - LinkGPT: Teaching Large Language Models To Predict Missing Links [23.57145845001286]
大規模言語モデル(LLM)は、様々な言語やビジョンタスクにおいて有望な結果を示している。
近年、グラフベースのタスク、特にテキスト分散グラフ(TAG)にLLMを適用することへの関心が高まっている。
論文 参考訳(メタデータ) (2024-06-07T04:54:36Z) - Can we obtain significant success in RST discourse parsing by using
Large Language Models? [32.94244684710954]
デコーダのみの大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクに大きな影響を与えている。
本稿では,LLMがRST(Rhetorical Structure Theory)の言論解析にいかに有用かを検討する。
RST-DT, Instr-DT, GUMコーパスの3つのベンチマークデータセットによる実験結果から, ボトムアップ戦略に700億のパラメータを持つLlama 2が, 有意な差を示した。
論文 参考訳(メタデータ) (2024-03-08T05:34:29Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Investigating the Effectiveness of Task-Agnostic Prefix Prompt for
Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。
我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文 参考訳(メタデータ) (2023-02-28T16:06:35Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。