論文の概要: PLDR-LLM: Large Language Model from Power Law Decoder Representations
- arxiv url: http://arxiv.org/abs/2410.16703v1
- Date: Tue, 22 Oct 2024 05:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:27.106088
- Title: PLDR-LLM: Large Language Model from Power Law Decoder Representations
- Title(参考訳): PLDR-LLM:パワーローデコーダによる大規模言語モデル
- Authors: Burc Gokden,
- Abstract要約: RefinedWebデータセットから小さなバッチサイズ32と$sim$8Bのトークンで、さまざまなレイヤサイズでPLDR-LLMを事前トレーニングします。
ゼロショットおよび少数ショット設定で競合性能を達成することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present the Large Language Model from Power Law Decoder Representations (PLDR-LLM), a language model that leverages non-linear and linear transformations through Power Law Graph Attention mechanism to generate well-defined deductive and inductive outputs. We pretrain the PLDR-LLMs of varying layer sizes with a small batch size of 32 and $\sim$8B tokens from the RefinedWeb dataset, and show that they achieve competitive performance in zero-shot and few-shot settings compared to scaled dot-product LLMs of similar model size reported in the literature. We show that deductive outputs of PLDR-LLMs can be used to compare model characteristics or improve the performance by introducing the Directed Acyclic Graph (DAG) loss as a metric and regularizer. Our results indicate that the initial maximum learning rate and warm-up steps have a lasting impact on deductive outputs throughout the pretraining. We provide a detailed description of PLDR-LLM architecture, its implementation and the pretraining procedure.
- Abstract(参考訳): 本稿では,Large Language Model from Power Law Decoder Representations (PLDR-LLM)について述べる。
我々はRefinedWebデータセットから32のバッチサイズと8Bの$\sim$8Bのトークンを持つ様々な層サイズのPLDR-LLMを事前訓練し、文献で報告されているようなスケールされたドット生成LCMと比較して、ゼロショットおよび少数ショット設定で競合性能を達成することを示す。
PLDR-LLMの導出出力は, モデル特性を比較したり, DAG損失を計量および正則化器として導入することで, 性能を向上させることができることを示す。
以上の結果から,初回学習率とウォームアップステップが,プレトレーニング期間中の誘引的アウトプットに持続的な影響を及ぼすことが示唆された。
本稿ではPLDR-LLMアーキテクチャの実装と事前学習手順について詳述する。
関連論文リスト
- Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。
LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。
LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Boosting Vision-Language Models with Transduction [12.281505126587048]
本稿では,視覚言語モデルのための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。
TransCLIPは、一般的なinductive zero- and few-shotモデルの上に、プラグイン・アンド・プレイモジュールとして適用することができる。
論文 参考訳(メタデータ) (2024-06-03T23:09:30Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale
Instructions [28.937552799649808]
命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。
我々は既存の命令と新しく生成された命令の両方に基づいて258万の命令を大規模に開発する。
我々は、エンコーダデコーダとデコーダのみのファミリーの両方のモデルを含む、LaMini-LMと呼ばれる様々なモデルの群を微調整する。
論文 参考訳(メタデータ) (2023-04-27T17:58:49Z) - Prompt-Augmented Linear Probing: Scaling beyond the Limit of Few-shot
In-Context Learners [25.262774179224945]
本稿では,線形探索とインコンテクスト学習のハイブリッドであるPALP(Properced-augmented linear probing)を提案する。
PALPは、データハングリーシナリオにおけるICL間のギャップを閉じる入力表現と、トレーニングオーバーヘッドの少ないデータバウンダントシナリオにおける微調整を大幅に強化する。
論文 参考訳(メタデータ) (2022-12-21T09:37:05Z) - Perceiver IO: A General Architecture for Structured Inputs & Outputs [84.60656759687477]
Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟にクエリすることを学ぶ。
このモデルは、高度に構造化された出力空間を持つタスクに対して強い結果を得る。
Perceiver IOは、GLUE言語ベンチマークでTransformerベースのBERTベースラインにマッチする。
論文 参考訳(メタデータ) (2021-07-30T17:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。