論文の概要: XGen-7B Technical Report
- arxiv url: http://arxiv.org/abs/2309.03450v1
- Date: Thu, 7 Sep 2023 02:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 14:29:13.014767
- Title: XGen-7B Technical Report
- Title(参考訳): XGen-7B技術報告
- Authors: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen
Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil
Purushwalkam, Tong Niu, Wojciech Kry\'sci\'nski, Lidiya Murakhovs'ka,
Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat,
Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
- Abstract要約: XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
- 参考スコア(独自算出の注目度): 138.71625147048377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become ubiquitous across various domains,
transforming the way we interact with information and conduct research.
However, most high-performing LLMs remain confined behind proprietary walls,
hindering scientific progress. Most open-source LLMs, on the other hand, are
limited in their ability to support longer sequence lengths, which is a key
requirement for many tasks that require inference over an input context. To
address this, we have trained XGen, a series of 7B parameter models on up to 8K
sequence length for up to 1.5T tokens. We have also finetuned the XGen models
on public-domain instructional data, creating their instruction-tuned
counterparts (XGen-Inst). We open-source our models for both research
advancements and commercial applications. Our evaluation on standard benchmarks
shows that XGen models achieve comparable or better results when compared with
state-of-the-art open-source LLMs. Our targeted evaluation on long sequence
modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence
open-source LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、さまざまなドメインにまたがって広く普及し、情報と対話し、研究を行う方法を変えています。
しかし、ほとんどの高い性能のLSMはプロプライエタリな壁の後ろに留まり、科学的進歩を妨げる。
一方、ほとんどのオープンソース LLM は、長いシーケンス長をサポートする能力に制限があり、これは入力コンテキスト上で推論を必要とする多くのタスクにとって重要な要件である。
これを解決するために、最大8Kシーケンス長で最大1.5Tトークンの7BパラメータモデルであるXGenをトレーニングしました。
また、パブリックドメインの命令データに基づいてXGenモデルを微調整し、その命令を微調整する(XGen-Inst)。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
標準ベンチマークによる評価の結果,XGen モデルは最先端のオープンソース LLM と比較すると,同等あるいはより良い結果が得られることがわかった。
2K系列のオープンソースLLMに対する8K系列モデルの利点を示す。
関連論文リスト
- Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [48.17611255751571]
ポストトレーニングは、大きな言語モデルが人間の指示に従うことを可能にするために不可欠である。
マルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成する。
本稿では,シナリオ駆動型命令生成器MATRIX-Genを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。