論文の概要: PaLM 2 Technical Report
- arxiv url: http://arxiv.org/abs/2305.10403v3
- Date: Wed, 13 Sep 2023 20:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:01:55.462948
- Title: PaLM 2 Technical Report
- Title(参考訳): PaLM 2テクニカルレポート
- Authors: Rohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry
Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey,
Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang,
Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin
Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang,
Gustavo Hernandez Abrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan Botha,
James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng,
Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Cl\'ement
Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark D\'iaz,
Nan Du, Ethan Dyer, Vlad Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus
Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, Guy Gur-Ari,
Steven Hand, Hadi Hashemi, Le Hou, Joshua Howland, Andrea Hu, Jeffrey Hui,
Jeremy Hurwitz, Michael Isard, Abe Ittycheriah, Matthew Jagielski, Wenhao
Jia, Kathleen Kenealy, Maxim Krikun, Sneha Kudugunta, Chang Lan, Katherine
Lee, Benjamin Lee, Eric Li, Music Li, Wei Li, YaGuang Li, Jian Li, Hyeontaek
Lim, Hanzhao Lin, Zhongtao Liu, Frederick Liu, Marcello Maggioni, Aroma
Mahendru, Joshua Maynez, Vedant Misra, Maysam Moussalem, Zachary Nado, John
Nham, Eric Ni, Andrew Nystrom, Alicia Parrish, Marie Pellat, Martin Polacek,
Alex Polozov, Reiner Pope, Siyuan Qiao, Emily Reif, Bryan Richter, Parker
Riley, Alex Castro Ros, Aurko Roy, Brennan Saeta, Rajkumar Samuel, Renee
Shelby, Ambrose Slone, Daniel Smilkov, David R. So, Daniel Sohn, Simon
Tokumine, Dasha Valter, Vijay Vasudevan, Kiran Vodrahalli, Xuezhi Wang,
Pidong Wang, Zirui Wang, Tao Wang, John Wieting, Yuhuai Wu, Kelvin Xu, Yunhan
Xu, Linting Xue, Pengcheng Yin, Jiahui Yu, Qiao Zhang, Steven Zheng, Ce
Zheng, Weikang Zhou, Denny Zhou, Slav Petrov, Yonghui Wu
- Abstract要約: PaLM 2は最先端の言語モデルである。
より優れた多言語対応と推論機能を備えている。
計算効率は前任の PaLM よりも高い。
- 参考スコア(独自算出の注目度): 237.84195343548055
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce PaLM 2, a new state-of-the-art language model that has better
multilingual and reasoning capabilities and is more compute-efficient than its
predecessor PaLM. PaLM 2 is a Transformer-based model trained using a mixture
of objectives. Through extensive evaluations on English and multilingual
language, and reasoning tasks, we demonstrate that PaLM 2 has significantly
improved quality on downstream tasks across different model sizes, while
simultaneously exhibiting faster and more efficient inference compared to PaLM.
This improved efficiency enables broader deployment while also allowing the
model to respond faster, for a more natural pace of interaction. PaLM 2
demonstrates robust reasoning capabilities exemplified by large improvements
over PaLM on BIG-Bench and other reasoning tasks. PaLM 2 exhibits stable
performance on a suite of responsible AI evaluations, and enables
inference-time control over toxicity without additional overhead or impact on
other capabilities. Overall, PaLM 2 achieves state-of-the-art performance
across a diverse set of tasks and capabilities.
When discussing the PaLM 2 family, it is important to distinguish between
pre-trained models (of various sizes), fine-tuned variants of these models, and
the user-facing products that use these models. In particular, user-facing
products typically include additional pre- and post-processing steps.
Additionally, the underlying models may evolve over time. Therefore, one should
not expect the performance of user-facing products to exactly match the results
reported in this report.
- Abstract(参考訳): マルチ言語と推論能力が向上し,従来のPaLMよりも計算効率がよい,最先端の言語モデルであるPaLM 2を紹介する。
PaLM 2はトランスフォーマーベースのモデルであり、目的の混合を用いて訓練されている。
英語と多言語言語に関する広範囲な評価と推論タスクを通じて、PaLM 2は、異なるモデルサイズで下流タスクの品質を大幅に向上し、同時に、PaLMと比較してより高速かつ効率的に推論できることを示した。
この改善された効率により、より広範なデプロイメントが可能になると同時に、モデルがより自然なインタラクションのペースで、より高速に応答できるようになる。
PaLM 2は、BIG-Benchや他の推論タスク上でのPaLMに対する大幅な改善によって実証された堅牢な推論機能を示している。
PaLM 2は、責任あるAI評価スイート上で安定したパフォーマンスを示し、追加のオーバーヘッドや他の機能への影響なしに毒性に対する推論時間制御を可能にする。
全体として、PaLM 2は様々なタスクと能力のセットで最先端のパフォーマンスを達成する。
PaLM 2ファミリーを論じる際には、(様々なサイズの)事前訓練されたモデルと、これらのモデルの微調整されたバリエーションと、これらのモデルを使用するユーザ向け製品とを区別することが重要である。
特に、ユーザー向け製品には、通常、前処理と後処理のステップが追加される。
さらに、基礎となるモデルは時間とともに進化する可能性がある。
したがって、このレポートで報告された結果に正確に適合するユーザ向け製品の性能を期待するべきではない。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Tandem Transformers for Inference Efficient LLMs [49.75726447408795]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。
PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文 参考訳(メタデータ) (2024-02-13T18:24:08Z) - MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models [7.321459642283822]
ファインチューニングは、膨大なリソースと計算を必要とせずに、言語モデルの性能を向上させることができる。
LLama-2-7B モデルと Mistral-7B モデルを2つの合成多言語命令チューニングデータセット上で微調整し、モデル性能に与える影響を判定する。
小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
論文 参考訳(メタデータ) (2024-01-15T11:06:43Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。