Fugu-MT 論文翻訳(概要): Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

論文の概要: Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

arxiv url: http://arxiv.org/abs/2306.12509v1
Date: Wed, 21 Jun 2023 18:45:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 16:34:40.459905
Title: Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference
Title（参考訳）: 深層言語ネットワーク:変分推論を用いた積み重ねLLMの連発学習
Authors: Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux
Abstract要約: 我々は、大きな言語モデル(LLM)を、学習可能なパラメータが各レイヤの自然言語エンハンプットであるネットワーク内のエンハング層とみなす。私たちはスタックアーキテクチャをemphDeep Language Network (DLN)と呼びます。
参考スコア（独自算出の注目度）: 80.2866773720013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We view large language models (LLMs) as stochastic \emph{language layers} in a network, where the learnable parameters are the natural language \emph{prompts} at each layer. We stack two such layers, feeding the output of one layer to the next. We call the stacked architecture a \emph{Deep Language Network} (DLN). We first show how to effectively perform prompt optimization for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs (DLN-2), where two prompts must be learnt. We consider the output of the first layer as a latent variable to marginalize, and devise a variational inference algorithm for joint prompt training. A DLN-2 reaches higher performance than a single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the network is smaller and less powerful. The DLN code is open source: https://github.com/microsoft/deep-language-networks .
Abstract（参考訳）: 我々は,大規模言語モデル(LLMs)をネットワーク内の確率的 \emph{言語層とみなし,学習可能なパラメータは各層における自然言語 \emph{prompts} である。このようなレイヤを2つ積み重ねて,ひとつのレイヤの出力を次のレイヤに供給します。我々はスタックアーキテクチャを \emph{deep language network} (dln)と呼ぶ。まず,1層言語ネットワーク(dln-1)の最適化を効果的に行う方法を示す。次に、2つのプロンプトを学ぶ必要がある2層dln(dln-2)のトレーニング方法を示す。我々は,第1層の出力を残差化のための潜伏変数とみなし,共同学習のための変分推論アルゴリズムを考案する。 DLN-2は単一層よりも高い性能に到達し、ネットワーク内の各LCMが小さく、より強力でない場合でも、時には数ショットのGPT-4に匹敵する。 dlnコードはオープンソースである。 https://github.com/microsoft/deep-language-networks。

関連論文リスト

Refining Interactions: Enhancing Anisotropy in Graph Neural Networks with Language Semantics [6.273224130511677]
異方性GNNの概念を自然言語レベルまで拡張するフレームワークであるLanSAGNN(Language Semantic Anisotropic Graph Neural Network)を紹介する。本稿では,LLMの出力とグラフタスクとの整合性を改善するために,効率的な2層LLMの微調整アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-04-02T07:32:45Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文参考訳（メタデータ） (2025-02-17T03:45:03Z)
How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文参考訳（メタデータ） (2024-10-03T08:27:54Z)
TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。 WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-06-12T17:21:21Z)
LinkGPT: Teaching Large Language Models To Predict Missing Links [23.57145845001286]
大規模言語モデル(LLM)は、様々な言語やビジョンタスクにおいて有望な結果を示している。近年、グラフベースのタスク、特にテキスト分散グラフ(TAG)にLLMを適用することへの関心が高まっている。
論文参考訳（メタデータ） (2024-06-07T04:54:36Z)
Can we obtain significant success in RST discourse parsing by using Large Language Models? [32.94244684710954]
デコーダのみの大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクに大きな影響を与えている。本稿では,LLMがRST(Rhetorical Structure Theory)の言論解析にいかに有用かを検討する。 RST-DT, Instr-DT, GUMコーパスの3つのベンチマークデータセットによる実験結果から, ボトムアップ戦略に700億のパラメータを持つLlama 2が, 有意な差を示した。
論文参考訳（メタデータ） (2024-03-08T05:34:29Z)
Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文参考訳（メタデータ） (2023-09-16T11:58:34Z)
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文参考訳（メタデータ） (2023-07-29T18:01:46Z)
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。 MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文参考訳（メタデータ） (2023-05-24T11:06:15Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Investigating the Effectiveness of Task-Agnostic Prefix Prompt for Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文参考訳（メタデータ） (2023-02-28T16:06:35Z)
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文参考訳（メタデータ） (2022-01-06T10:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。