Fugu-MT 論文翻訳(概要): Textbooks Are All You Need II: phi-1.5 technical report

論文の概要: Textbooks Are All You Need II: phi-1.5 technical report

arxiv url: http://arxiv.org/abs/2309.05463v1
Date: Mon, 11 Sep 2023 14:01:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 12:27:27.285042
Title: Textbooks Are All You Need II: phi-1.5 technical report
Title（参考訳）: テキストは全部必要なもの: phi-1.5テクニカルレポート
Authors: Yuanzhi Li, S\'ebastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
Abstract要約: 我々は、新しい13億のパラメータモデル textbfphi-1.5を作成し、5倍のモデルに匹敵する自然言語タスクのパフォーマンスを実現した。 textbfphi-1.5はより大きな言語モデルの特徴の多くを示している。我々はこれらの緊急トピックに関するさらなる研究を促進するために textbfphi-1.5 をオープンソース化した。
参考スコア（独自算出の注目度）: 55.6940110946465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate ``textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the ``Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.
Abstract（参考訳）: 私たちは、コヒーレントな英語を生成する1000万のパラメータモデルである \textbf{TinyStories} と、Pythonのコーディング性能が最先端に近い13億のパラメータモデルである \textbf{phi-1} について、より小さなTransformerベースの言語モデルのパワーについて調査を続けている。 The latter work proposed to use existing Large Language Models (LLMs) to generate ``textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the ``Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. より一般的には、 \textbf{phi-1.5} は、非常に大きな llm の特徴の多くを示しており、どちらも良い -- "ステップ・バイ・ステップ" や、幻覚や有毒で偏った世代の可能性など、基本的なイン・コンテキスト学習を行う能力 -- と悪い -- がある。我々は,これらの緊急トピックに関するさらなる研究を促進するために,textbf{phi-1.5}をオープンソース化した。

関連論文リスト

Technical Report: Full-Stack Fine-Tuning for the Q Programming Language [1.2316583133621197]
我々はQ言語の評価データセットをリリースする。データセット上で主要なフロンティアモデルをベンチマークし、事前トレーニング、教師付き微調整、強化学習を行います。我々の最高のモデルは、Qベンチマークで59%のパス@1精度を実現し、最高のパフォーマンスのフロンティアモデルを上回っています。
論文参考訳（メタデータ） (2025-08-09T04:22:07Z)
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-08-03T23:59:31Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective [40.29094043868067]
本稿では,長期文書検索においてLLMベースの埋め込みモデルよりも20%優れる拡散言語埋め込みモデルについて,最初の体系的研究を行う。我々の分析は、双方向の注意が、長く複雑なテキストでグローバルなコンテキストを符号化するのに重要であることを検証している。
論文参考訳（メタデータ） (2025-05-21T02:59:14Z)
Cross-Lingual Transfer for Low-Resource Natural Language Processing [0.32634122554914]
言語間移動学習は、NLPの性能を向上させるために、高ソース言語からのデータとモデルを活用する研究分野である。この論文は、最先端のアノテーション投影法であるT-プロジェクションを用いて、データベースの転送を改善する新しい方法を提案する。モデルベース転送では,ゼロショット設定で言語間連続ラベルを拡張可能な制約付き復号アルゴリズムを導入する。最後に,最初の多言語テキスト・テキスト・メディカルモデルであるMedical mT5を開発した。
論文参考訳（メタデータ） (2025-02-04T21:17:46Z)
ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文参考訳（メタデータ） (2024-12-25T18:58:07Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。 MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文参考訳（メタデータ） (2024-08-07T02:14:52Z)
Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文参考訳（メタデータ） (2024-06-04T17:59:25Z)
Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文参考訳（メタデータ） (2024-02-08T13:47:50Z)
Pretrained Generative Language Models as General Learning Frameworks for Sequence-Based Tasks [0.0]
そこで本研究では,素小事前学習型生成言語モデルをシーケンスベースタスクの一般的な学習フレームワークとして利用することを提案する。提案では,ニューラルネットワークと言語モデルをスクラッチからトレーニングする際の計算資源,スキルセット,タイムラインの課題を克服する。 125M,350M,1.3Bパラメータを事前学習した基礎言語モデルを1万から1000,000の命令例で微調整できることを実証した。
論文参考訳（メタデータ） (2024-02-08T12:19:32Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
Towards General Text Embeddings with Multi-stage Contrastive Learning [20.803769345818456]
GTEは多段階のコントラスト学習で訓練された汎用テキスト埋め込みモデルである。複数の情報源からの多様なデータセットに対してコントラスト学習を用いることで、統一的なテキスト埋め込みモデルを訓練する。
論文参考訳（メタデータ） (2023-08-07T03:52:59Z)
Evaluating Generative Models for Graph-to-Text Generation [0.0]
ゼロショット設定でグラフデータから記述テキストを生成するための生成モデルの能力について検討する。この結果から, 生成モデルにより, 流動的で一貫性のあるテキストを生成できることが示唆された。しかし, 誤り解析の結果, 生成モデルは実体間の意味的関係の理解に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2023-07-27T09:03:05Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
Foundation Models for Natural Language Processing -- Pre-trained Language Models Integrating Media [0.0]
ファンデーションモデルは自然言語処理のための事前訓練された言語モデルである。画像処理やビデオ処理からロボット制御学習まで、幅広いメディアや問題領域に適用することができる。本書は、ファンデーションモデルの研究および応用における技術の現状を概観する。
論文参考訳（メタデータ） (2023-02-16T20:42:04Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)
Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning [18.932100477957462]
GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
論文参考訳（メタデータ） (2021-10-10T07:40:22Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。