論文の概要: Naive Bayes-based Context Extension for Large Language Models
- arxiv url: http://arxiv.org/abs/2403.17552v1
- Date: Tue, 26 Mar 2024 09:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:57:01.646671
- Title: Naive Bayes-based Context Extension for Large Language Models
- Title(参考訳): ベイズに基づく大規模言語モデルのための文脈拡張
- Authors: Jianlin Su, Murtadha Ahmed, Wenbo, Luo Ao, Mingren Zhu, Yunfeng Liu,
- Abstract要約: Naive Bayes-based Context Extension (NBCE) と呼ばれる新しいフレームワークを導入する。
NBCEは、既存のLarge Language Models (LLMs) がインコンテキストラーニング (ICL) を実行可能にする。
NBCEは、特に実演例の数が増えるにつれて、性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 2.743675474582704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown promising in-context learning abilities. However, conventional In-Context Learning (ICL) approaches are often impeded by length limitations of transformer architecture, which pose challenges when attempting to effectively integrate supervision from a substantial number of demonstration examples. In this paper, we introduce a novel framework, called Naive Bayes-based Context Extension (NBCE), to enable existing LLMs to perform ICL with an increased number of demonstrations by significantly expanding their context size. Importantly, this expansion does not require fine-tuning or dependence on particular model architectures, all the while preserving linear efficiency. NBCE initially splits the context into equal-sized windows fitting the target LLM's maximum length. Then, it introduces a voting mechanism to select the most relevant window, regarded as the posterior context. Finally, it employs Bayes' theorem to generate the test task. Our experimental results demonstrate that NBCE substantially enhances performance, particularly as the number of demonstration examples increases, consistently outperforming alternative methods. The NBCE code will be made publicly accessible. The code NBCE is available at: https://github.com/amurtadha/NBCE-master
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンテキスト内学習の有望な能力を示している。
しかし、従来のインコンテキスト学習(ICL)アプローチは、多くの実演例から監督を効果的に統合しようとする場合、トランスフォーマーアーキテクチャの長さ制限によってしばしば妨げられる。
本稿では,既存のLCMが,そのコンテキストサイズを大きく拡張して,より多くの実演でICLを実行できるようにする,Naive Bayes-based Context Extension (NBCE) という新しいフレームワークを提案する。
重要なことは、この拡張は、線形効率を保ちながら、特定のモデルアーキテクチャへの微調整や依存を必要としないことである。
NBCEは当初、コンテキストをLLMの最大長に合う等サイズのウィンドウに分割した。
次に、最も関連性の高いウィンドウを選択するための投票機構を導入し、後続のコンテキストと見なす。
最後に、これはベイズの定理を用いてテストタスクを生成する。
実験の結果,NBCEは実演例の数が増えるにつれて性能を著しく向上し,代替手法を一貫して上回っていることがわかった。
NBCEのコードは一般公開される予定だ。
NBCEのコードは、https://github.com/amurtadha/NBCE-masterで入手できる。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge [47.750073410717604]
時間的接地機能を備えたMLLMをブートストラップする新しいフレームワークである時間的接地橋(TGB)について紹介する。
7つのビデオベンチマークでTGBを検証し,従来のMLLMと比較して大幅な性能向上を示した。
4フレームのシーケンスをトレーニングした本モデルでは,性能を犠牲にすることなく,最大16のシーケンスを効果的に処理する。
論文 参考訳(メタデータ) (2024-02-25T10:27:46Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - DAIL: Data Augmentation for In-Context Learning via Self-Paraphrase [37.68804898063595]
In-Context Learning (ICL)と事前訓練された大規模言語モデルを組み合わせることで、様々なNLPタスクにおいて有望な結果が得られた。
textbfData textbfAugmentation for textbfIn-Context textbfLearning (textbfDAIL)を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:12:55Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。