論文の概要: Falcon2-11B Technical Report
- arxiv url: http://arxiv.org/abs/2407.14885v1
- Date: Sat, 20 Jul 2024 14:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:09:56.916671
- Title: Falcon2-11B Technical Report
- Title(参考訳): Falcon2-11Bの技術報告
- Authors: Quentin Malartic, Nilabhra Roy Chowdhury, Ruxandra Cojocaru, Mugariya Farooq, Giulia Campesan, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Ankit Singh, Maksim Velikanov, Basma El Amel Boussaha, Mohammed Al-Yafeai, Hamza Alobeidli, Leen Al Qadi, Mohamed El Amine Seddik, Kirill Fedyanin, Reda Alami, Hakim Hacid,
- Abstract要約: 5兆以上のトークンでトレーニングされた基盤モデルであるFalcon2-11Bと、ビジョン・トゥ・テキストモデルであるFalcon2-11B-vlmを紹介する。
我々は,多段階アプローチによるFalcon2-11Bの訓練中に得られた知見を報告する。
また,学習期間中のバッチサイズを倍増させる効果と,学習率によるトレーニング損失のスパイクの影響を報告する。
- 参考スコア(独自算出の注目度): 12.473984346805011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Falcon2-11B, a foundation model trained on over five trillion tokens, and its multimodal counterpart, Falcon2-11B-vlm, which is a vision-to-text model. We report our findings during the training of the Falcon2-11B which follows a multi-stage approach where the early stages are distinguished by their context length and a final stage where we use a curated, high-quality dataset. Additionally, we report the effect of doubling the batch size mid-training and how training loss spikes are affected by the learning rate. The downstream performance of the foundation model is evaluated on established benchmarks, including multilingual and code datasets. The foundation model shows strong generalization across all the tasks which makes it suitable for downstream finetuning use cases. For the vision language model, we report the performance on several benchmarks and show that our model achieves a higher average score compared to open-source models of similar size. The model weights and code of both Falcon2-11B and Falcon2-11B-vlm are made available under a permissive license.
- Abstract(参考訳): 5兆以上のトークンでトレーニングされた基盤モデルであるFalcon2-11Bと、そのマルチモーダルモデルであるFalcon2-11B-vlmを紹介する。
Falcon2-11Bの訓練中に得られた知見を報告する。これは、初期の段階が文脈の長さと、キュレートされた高品質データセットを使用する最終段階によって区別されるマルチステージアプローチである。
さらに,学習中のバッチサイズを2倍にし,学習率によって学習損失のスパイクがどう影響するかを報告する。
基礎モデルのダウンストリーム性能は、マルチリンガルやコードデータセットを含む確立したベンチマークで評価される。
基礎モデルは、下流の微調整ユースケースに適した全てのタスクに対して強力な一般化を示す。
視覚言語モデルでは、複数のベンチマークで性能を報告し、同規模のオープンソースモデルと比較して平均スコアが高いことを示す。
ファルコン2-11Bとファルコン2-11B-vlmのモデル重量とコードは許容ライセンスの下で利用可能である。
関連論文リスト
- LokiLM: Technical Report [0.0]
500Bトークンでトレーニングされた1.4Bパラメータ大言語モデルであるLokiLMを紹介する。
LokiLMは1.5B以下のパラメータを持つモデル間で最先端のパフォーマンスを実現する。
その有望なパフォーマンスにもかかわらず、LokiLMは、TruthfulQAベンチマークにおいて、必要な量の幻覚とスコアを示しています。
論文 参考訳(メタデータ) (2024-07-10T05:05:47Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - A Three-Phases SFT Hybrid Model Integrated Strong Prior Module and Data Overlap Estimation in the Eduation Context [0.0]
教師付き微調整モデルとして,エンド・ツー・エンドの3相モデルを提案する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - The Falcon Series of Open Language Models [36.93493444130304]
さまざまな高品質コーパスで訓練された因果デコーダのみのモデルとして,7B,40B,180Bというファルコンシリーズを紹介した。
最大のモデルであるFalcon-180Bは3.5兆個のテキストトークンで訓練されている。
Falcon-180B は PaLM や Chinchilla などのモデルよりも優れており、LLaMA 2 や Inflection-1 のような同時開発モデルでも改善されている。
論文 参考訳(メタデータ) (2023-11-28T15:12:47Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Large-scale learning of generalised representations for speaker
recognition [52.978310296712834]
多様なシナリオで使用される話者認識モデルを開発した。
いくつかの既存のデータセットを組み合わせた新しいトレーニングデータ構成について検討する。
帰納バイアスの少ない MFA-Conformer が最良を一般化する。
論文 参考訳(メタデータ) (2022-10-20T03:08:18Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。