Fugu-MT 論文翻訳(概要): Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models

論文の概要: Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models

arxiv url: http://arxiv.org/abs/2403.08281v2
Date: Fri, 15 Mar 2024 07:22:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 10:49:12.392781
Title: Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models
Title（参考訳）: 高度特殊化言語モデルを用いたテキスト, コード, 数学の同時習得
Authors: Ning Ding, Yulin Chen, Ganqu Cui, Xingtai Lv, Ruobing Xie, Bowen Zhou, Zhiyuan Liu, Maosong Sun,
Abstract要約: 大規模言語モデル(LLM)は、3つのドメインすべてにまたがって高いパフォーマンスを同時に達成しようと試みている。本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
参考スコア（独自算出の注目度）: 92.89134740678996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Underlying data distributions of natural language, programming code, and mathematical symbols vary vastly, presenting a complex challenge for large language models (LLMs) that strive to achieve high performance across all three domains simultaneously. Achieving a very high level of proficiency for an LLM within a specific domain often requires extensive training with relevant corpora, which is typically accompanied by a sacrifice in performance in other domains. In this paper, we propose to fuse models that are already highly-specialized directly. The proposed fusing framework, UltraFuser, consists of three distinct specialists that are already sufficiently trained on language, coding, and mathematics. A token-level gating mechanism is introduced to blend the specialists' outputs. A two-stage training strategy accompanied by balanced sampling is designed to ensure stability. To effectively train the fused model, we further construct a high-quality supervised instruction tuning dataset, UltraChat 2, which includes text, code, and mathematical content. This dataset comprises approximately 300,000 instructions and covers a wide range of topics in each domain. Experiments show that our model could simultaneously achieve mastery of the three crucial domains.
Abstract（参考訳）: 自然言語、プログラミングコード、数学的記号のデータ分布は様々であり、大きな言語モデル(LLM)が3つのドメインすべてに対して同時に高いパフォーマンスを達成するための複雑な課題を提示する。特定のドメイン内のLLMの非常に高い習熟度を達成するには、しばしば関連するコーパスによる広範囲なトレーニングが必要であり、これは通常、他のドメインのパフォーマンスの犠牲を伴う。本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。専門家の出力をブレンドするためにトークンレベルのゲーティング機構が導入された。バランスの取れたサンプリングを伴う2段階のトレーニング戦略は、安定性を確保するために設計されている。融合モデルを効果的に訓練するために,テキスト,コード,数学的内容を含む高品質な教師ありチューニングデータセットであるUltraChat 2を構築した。このデータセットはおよそ30万の命令で構成され、各ドメインの幅広いトピックをカバーする。実験により、我々のモデルは3つの重要な領域の習得を同時に達成できることが示された。

関連論文リスト

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文参考訳（メタデータ） (2025-04-14T17:59:25Z)
UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文参考訳（メタデータ） (2025-03-26T17:33:23Z)
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文参考訳（メタデータ） (2024-11-05T04:10:59Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Label-Free Multi-Domain Machine Translation with Stage-wise Training [13.144729358707206]
そこで本研究では,ラベルのないマルチドメイン機械翻訳モデルを提案する。我々のモデルは3つの部分から構成される: バックボーンモデル、異なるドメインからデータを識別する責任を負うドメイン識別器、デコードされた特徴をジェネリックから特定のものに伝達する専門家のセット。
論文参考訳（メタデータ） (2023-05-06T06:30:29Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
Building a Multi-domain Neural Machine Translation Model using Knowledge Distillation [0.0]
専門データの欠如により、マルチドメインのニューラルネットワーク翻訳ツールの構築が困難になる。我々は,知識蒸留と複数の専門教員が効率的にモデルを微調整できる新しい訓練パイプラインを提案する。
論文参考訳（メタデータ） (2020-04-15T20:21:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。