論文の概要: XGen-7B Technical Report
- arxiv url: http://arxiv.org/abs/2309.03450v1
- Date: Thu, 7 Sep 2023 02:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 14:29:13.014767
- Title: XGen-7B Technical Report
- Title(参考訳): XGen-7B技術報告
- Authors: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen
Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil
Purushwalkam, Tong Niu, Wojciech Kry\'sci\'nski, Lidiya Murakhovs'ka,
Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat,
Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
- Abstract要約: XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
- 参考スコア(独自算出の注目度): 138.71625147048377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become ubiquitous across various domains,
transforming the way we interact with information and conduct research.
However, most high-performing LLMs remain confined behind proprietary walls,
hindering scientific progress. Most open-source LLMs, on the other hand, are
limited in their ability to support longer sequence lengths, which is a key
requirement for many tasks that require inference over an input context. To
address this, we have trained XGen, a series of 7B parameter models on up to 8K
sequence length for up to 1.5T tokens. We have also finetuned the XGen models
on public-domain instructional data, creating their instruction-tuned
counterparts (XGen-Inst). We open-source our models for both research
advancements and commercial applications. Our evaluation on standard benchmarks
shows that XGen models achieve comparable or better results when compared with
state-of-the-art open-source LLMs. Our targeted evaluation on long sequence
modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence
open-source LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、さまざまなドメインにまたがって広く普及し、情報と対話し、研究を行う方法を変えています。
しかし、ほとんどの高い性能のLSMはプロプライエタリな壁の後ろに留まり、科学的進歩を妨げる。
一方、ほとんどのオープンソース LLM は、長いシーケンス長をサポートする能力に制限があり、これは入力コンテキスト上で推論を必要とする多くのタスクにとって重要な要件である。
これを解決するために、最大8Kシーケンス長で最大1.5Tトークンの7BパラメータモデルであるXGenをトレーニングしました。
また、パブリックドメインの命令データに基づいてXGenモデルを微調整し、その命令を微調整する(XGen-Inst)。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
標準ベンチマークによる評価の結果,XGen モデルは最先端のオープンソース LLM と比較すると,同等あるいはより良い結果が得られることがわかった。
2K系列のオープンソースLLMに対する8K系列モデルの利点を示す。
関連論文リスト
- Generative Representational Instruction Tuning [93.63474742655058]
GritLM 7B がMassive Text Embedding Benchmark (MTEB) に新たな技術状況を設定する
GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-15T12:12:19Z) - DeepSeek LLM: Scaling Open-Source Language Models with Longtermism [76.90033862238728]
本稿では,2つのオープンソース構成である7Bと67Bにおける大規模モデルのスケーリングを容易にすることについて述べる。
スケーリング法則によってガイドされたDeepSeek LLMは、長期的視点でオープンソースの言語モデルを進化させるためのプロジェクトです。
論文 参考訳(メタデータ) (2024-01-05T18:59:13Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Herd: Using multiple, smaller LLMs to match the performances of
proprietary, large LLMs via an intelligent composer [1.0878040851637998]
オープンソースモデルの群れは、インテリジェントルータを介して、プロプライエタリなモデルのパフォーマンスに適合または超えることができることを示す。
GPTがクエリに答えられない場合、Herdは少なくとも40%の確率でモデルを特定できる。
論文 参考訳(メタデータ) (2023-10-30T18:11:02Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Empower Your Model with Longer and Better Context Comprehension [15.377707808279908]
大規模言語モデル(LLM)における情報伝達の性質について検討する。
本研究では,より長いコンテキスト理解を実現するために,意識遷移と呼ばれる新しい手法を提案する。
LLaMa-7bモデルを用いて,800年から1900年までのコンテクストトークン長を持つXSumデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-07-25T09:34:42Z) - LLMatic: Neural Architecture Search via Large Language Models and
Quality Diversity Optimization [5.312303275762103]
大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。
本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を融合させることで,ニューラルネットワーク探索(NAS)アルゴリズムであるLLMaticを導入する。
CIFAR-10画像分類ベンチマークでLLMaticをテストし、2000ドル程度の検索で競合ネットワークを生成できることを実証した。
論文 参考訳(メタデータ) (2023-06-01T19:33:21Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。