論文の概要: Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models
- arxiv url: http://arxiv.org/abs/2403.08281v2
- Date: Fri, 15 Mar 2024 07:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 10:49:12.392781
- Title: Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models
- Title(参考訳): 高度特殊化言語モデルを用いたテキスト, コード, 数学の同時習得
- Authors: Ning Ding, Yulin Chen, Ganqu Cui, Xingtai Lv, Ruobing Xie, Bowen Zhou, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 大規模言語モデル(LLM)は、3つのドメインすべてにまたがって高いパフォーマンスを同時に達成しようと試みている。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
- 参考スコア(独自算出の注目度): 92.89134740678996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underlying data distributions of natural language, programming code, and mathematical symbols vary vastly, presenting a complex challenge for large language models (LLMs) that strive to achieve high performance across all three domains simultaneously. Achieving a very high level of proficiency for an LLM within a specific domain often requires extensive training with relevant corpora, which is typically accompanied by a sacrifice in performance in other domains. In this paper, we propose to fuse models that are already highly-specialized directly. The proposed fusing framework, UltraFuser, consists of three distinct specialists that are already sufficiently trained on language, coding, and mathematics. A token-level gating mechanism is introduced to blend the specialists' outputs. A two-stage training strategy accompanied by balanced sampling is designed to ensure stability. To effectively train the fused model, we further construct a high-quality supervised instruction tuning dataset, UltraChat 2, which includes text, code, and mathematical content. This dataset comprises approximately 300,000 instructions and covers a wide range of topics in each domain. Experiments show that our model could simultaneously achieve mastery of the three crucial domains.
- Abstract(参考訳): 自然言語、プログラミングコード、数学的記号のデータ分布は様々であり、大きな言語モデル(LLM)が3つのドメインすべてに対して同時に高いパフォーマンスを達成するための複雑な課題を提示する。
特定のドメイン内のLLMの非常に高い習熟度を達成するには、しばしば関連するコーパスによる広範囲なトレーニングが必要であり、これは通常、他のドメインのパフォーマンスの犠牲を伴う。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
専門家の出力をブレンドするためにトークンレベルのゲーティング機構が導入された。
バランスの取れたサンプリングを伴う2段階のトレーニング戦略は、安定性を確保するために設計されている。
融合モデルを効果的に訓練するために,テキスト,コード,数学的内容を含む高品質な教師ありチューニングデータセットであるUltraChat 2を構築した。
このデータセットはおよそ30万の命令で構成され、各ドメインの幅広いトピックをカバーする。
実験により、我々のモデルは3つの重要な領域の習得を同時に達成できることが示された。
関連論文リスト
- WavLLM: Towards Robust and Adaptive Speech Large Language Model [94.04010017961917]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Contrastive Learning and Mixture of Experts Enables Precise Vector
Embeddings [0.0]
トランスフォーマーニューラルネットワークは、自然言語入力の効率的なベクトル表現を生成する。
これらのモデルはドメイン固有のコンテキストにおいて顕著な課題に直面します。
我々は、最先端モデルを微調整するための2つの重要な戦略を採用している。
論文 参考訳(メタデータ) (2024-01-28T17:34:42Z) - Multi-Task Learning for Front-End Text Processing in TTS [15.62497569424995]
テキストから音声のフロントエンドで一般的に解決される3つのタスクを共同で実行するためのマルチタスク学習(MTL)モデルを提案する。
我々のフレームワークは、共有表現を学習するトランクを持つ木のような構造を利用し、その後にタスク固有ヘッドを分離する。
論文 参考訳(メタデータ) (2024-01-12T02:13:21Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Label-Free Multi-Domain Machine Translation with Stage-wise Training [13.144729358707206]
そこで本研究では,ラベルのないマルチドメイン機械翻訳モデルを提案する。
我々のモデルは3つの部分から構成される: バックボーンモデル、異なるドメインからデータを識別する責任を負うドメイン識別器、デコードされた特徴をジェネリックから特定のものに伝達する専門家のセット。
論文 参考訳(メタデータ) (2023-05-06T06:30:29Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - ME-D2N: Multi-Expert Domain Decompositional Network for Cross-Domain
Few-Shot Learning [95.78635058475439]
クロスドメインのFew-Shot Learningは、異なるドメインにわたるFew-Shot Learning問題に対処することを目的としている。
本稿では,ME-D2N(Multi-Expert Domain Decompositional Network)を技術的に貢献する。
本稿では,学生モデルを2つの領域関連部分に分解する新しい領域分解モジュールを提案する。
論文 参考訳(メタデータ) (2022-10-11T09:24:47Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Building a Multi-domain Neural Machine Translation Model using Knowledge
Distillation [0.0]
専門データの欠如により、マルチドメインのニューラルネットワーク翻訳ツールの構築が困難になる。
我々は,知識蒸留と複数の専門教員が効率的にモデルを微調整できる新しい訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2020-04-15T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。