Fugu-MT 論文翻訳(概要): Xmodel-LM Technical Report

論文の概要: Xmodel-LM Technical Report

arxiv url: http://arxiv.org/abs/2406.02856v5
Date: Tue, 19 Nov 2024 08:38:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.27784
Title: Xmodel-LM Technical Report
Title（参考訳）: Xmodel-LM技術報告
Authors: Yichuan Wang, Yang Liu, Yu Yan, Qun Wang, Xucheng Huang, Ling Jiang,
Abstract要約: Xmodel-LMは、約2兆トークンで事前訓練されたコンパクトで効率的な1.1B言語モデルである。大きさは小さいものの、見事な性能を誇っている。
参考スコア（独自算出の注目度）: 13.451816134545163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Xmodel-LM, a compact and efficient 1.1B language model pre-trained on around 2 trillion tokens. Trained on our self-built dataset (Xdata), which balances Chinese and English corpora based on downstream task optimization, Xmodel-LM exhibits remarkable performance despite its smaller size. It notably surpasses existing open-source language models of similar scale. Our model checkpoints and code are publicly accessible on GitHub at https://github.com/XiaoduoAILab/XmodelLM.
Abstract（参考訳）: 約2兆個のトークンで事前トレーニングした,コンパクトで効率的な1.1B言語モデルであるXmodel-LMを紹介する。ダウンストリームタスク最適化に基づいて、中国語と英語のコーパスのバランスをとる自己構築データセット(Xdata)に基づいて、Xmodel-LMは、そのサイズが小さいにもかかわらず、顕著なパフォーマンスを示す。特に、同様の規模の既存のオープンソース言語モデルを上回っている。私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelLMで公開されています。

関連論文リスト

Xmodel-2 Technical Report [4.0069773933776665]
Xmodel-2は、推論タスク用に特別に設計された大きな言語モデルである。トレーニング効率と安定性を最大化するために、MiniCPMのWSD学習率スケジューラを使用している。 Xmodel-2は、訓練コストを低く抑えながら、複雑な推論やエージェントベースのタスクにおいて最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-27T13:32:10Z)
Xmodel-1.5: An 1B-scale Multilingual LLM [4.298869484709548]
2兆のトークンで事前訓練された多言語大言語モデルであるXmodel-1.5を紹介する。 Xmodel-1.5は65,280個のトークンを持つカスタムユニグラムトークンライザを採用し、効率と精度の両方を最適化している。このモデルは、タイ語、アラビア語、フランス語、中国語、英語など、複数の言語で競合する結果をもたらす。
論文参考訳（メタデータ） (2024-11-15T10:01:52Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model [7.082567506213992]
本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。コンシューマGPUサーバへの効率的なデプロイのために設計されている。
論文参考訳（メタデータ） (2024-05-15T09:47:59Z)
Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文参考訳（メタデータ） (2024-03-07T16:52:49Z)
FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文参考訳（メタデータ） (2023-11-03T08:05:04Z)
NLLB-CLIP -- train performant multilingual image retrieval model on a budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。 201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文参考訳（メタデータ） (2023-09-04T23:26:11Z)
Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文参考訳（メタデータ） (2023-02-15T18:55:29Z)
Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文参考訳（メタデータ） (2022-10-26T17:16:52Z)
Larger-Scale Transformers for Multilingual Masked Language Modeling [16.592883204398518]
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
論文参考訳（メタデータ） (2021-05-02T23:15:02Z)
Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文参考訳（メタデータ） (2021-04-23T02:56:02Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。