論文の概要: XGen-7B Technical Report
- arxiv url: http://arxiv.org/abs/2309.03450v1
- Date: Thu, 7 Sep 2023 02:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-09-08 14:29:13.014767
- Title: XGen-7B Technical Report
- Title(参考訳): XGen-7B技術報告
- Authors: Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen
Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil
Purushwalkam, Tong Niu, Wojciech Kry\'sci\'nski, Lidiya Murakhovs'ka,
Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat,
Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong
- Abstract要約: XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
- 参考スコア(独自算出の注目度): 138.71625147048377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become ubiquitous across various domains,
transforming the way we interact with information and conduct research.
However, most high-performing LLMs remain confined behind proprietary walls,
hindering scientific progress. Most open-source LLMs, on the other hand, are
limited in their ability to support longer sequence lengths, which is a key
requirement for many tasks that require inference over an input context. To
address this, we have trained XGen, a series of 7B parameter models on up to 8K
sequence length for up to 1.5T tokens. We have also finetuned the XGen models
on public-domain instructional data, creating their instruction-tuned
counterparts (XGen-Inst). We open-source our models for both research
advancements and commercial applications. Our evaluation on standard benchmarks
shows that XGen models achieve comparable or better results when compared with
state-of-the-art open-source LLMs. Our targeted evaluation on long sequence
modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence
open-source LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、さまざまなドメインにまたがって広く普及し、情報と対話し、研究を行う方法を変えています。
しかし、ほとんどの高い性能のLSMはプロプライエタリな壁の後ろに留まり、科学的進歩を妨げる。
一方、ほとんどのオープンソース LLM は、長いシーケンス長をサポートする能力に制限があり、これは入力コンテキスト上で推論を必要とする多くのタスクにとって重要な要件である。
これを解決するために、最大8Kシーケンス長で最大1.5Tトークンの7BパラメータモデルであるXGenをトレーニングしました。
また、パブリックドメインの命令データに基づいてXGenモデルを微調整し、その命令を微調整する(XGen-Inst)。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
標準ベンチマークによる評価の結果,XGen モデルは最先端のオープンソース LLM と比較すると,同等あるいはより良い結果が得られることがわかった。
2K系列のオープンソースLLMに対する8K系列モデルの利点を示す。
関連論文リスト
- Catastrophic Forgetting in LLMs: A Comparative Analysis Across Language Tasks [0.0]
大規模言語モデル(LLM)は、かなり高度な自然言語処理(NLP)を持つ
本研究では,主要なNLUタスクに対する各種オープンソースLLMの連続的な微調整について検討する。
以上の結果から,Phi-3.5-miniのようなモデルでは,強い学習能力を維持しつつ,最小限の忘れを生じさせることが示唆された。
論文 参考訳(メタデータ) (2025-04-01T23:06:55Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [48.17611255751571]
ポストトレーニングは、大きな言語モデルが人間の指示に従うことを可能にするために不可欠である。
マルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成する。
本稿では,シナリオ駆動型命令生成器MATRIX-Genを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。
LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。
我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文 参考訳(メタデータ) (2024-06-03T18:00:50Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。