論文の概要: Compass-V2 Technical Report
- arxiv url: http://arxiv.org/abs/2504.15527v1
- Date: Tue, 22 Apr 2025 02:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 00:45:47.645624
- Title: Compass-V2 Technical Report
- Title(参考訳): コンパスV2技術報告
- Authors: Sophia Maria,
- Abstract要約: 東南アジアの言語やeコマースアプリケーションに特化した軽量なMixture-of-Experts(MoE)モデルであるCompass-v2を紹介する。
モデルの性能と推論コストのバランスをとるため、モデルには30Bの合計パラメータと5Bのアクティブパラメータが組み込まれ、細粒度と共有された専門家モジュールが組み込まれている。
提案モデルでは,30B未満のモデル間でのSEA多言語およびeコマースのパフォーマンスを示すとともに,推論コストの大幅な低減を図っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predominant LLMs focus on high-resource languages while leaving low-resource languages, particularly those in Southeast Asia (SEA), underrepresented. In addition, those models are general-purpose and pay limited attention to the e-commerce domain. To overcome these limitations, we introduce Compass-v2, a lightweight Mixture-of-Experts (MoE) model specifically designed for Southeast Asian languages and e-commerce applications. To balance model performance and inference cost, the model is designed with 30B total parameters and 5B active parameters, incorporating both fine-grained and shared expert modules. To enhance multilingual performance, we curated and constructed a high-quality, industry-leading SEA dataset, to the best of our knowledge. To boost performance in the e-commerce domain, we built a dataset comprising hundreds of billions of tokens, sourced through external data mining and internal platform collection. Besides, we pioneered a hybrid reasoning model that supports both fast thinking and deep thinking within a unified framework to enhance the reasoning capabilities, diverging from the conventional industry practice of deploying two separate models. Through extensive experimental evaluations, our model demonstrates state-of-the-art SEA multilingual and e-commerce performance among sub-30B models, while maintaining significantly lower inference cost.
- Abstract(参考訳): LLMは、低リソース言語、特に東南アジア(SEA)の言語を残しながら、高リソース言語に重点を置いている。
さらに、これらのモデルは汎用的であり、Eコマース領域に限定的な注意を払っている。
このような制限を克服するために,東南アジアの言語やeコマースアプリケーション向けに設計された,軽量なMixture-of-Experts(MoE)モデルであるCompass-v2を導入する。
モデルの性能と推論コストのバランスをとるため、モデルには30Bの合計パラメータと5Bのアクティブパラメータが組み込まれ、細粒度と共有された専門家モジュールが組み込まれている。
多言語のパフォーマンスを向上させるため,我々は高品質で業界をリードするSEAデータセットをキュレートし,構築した。
電子商取引領域のパフォーマンスを高めるため、外部データマイニングと内部プラットフォーム収集を通じて、数十億のトークンからなるデータセットを構築しました。
さらに、我々は、2つの異なるモデルをデプロイするという従来の業界慣行から切り離して、推論能力を高めるために、統合されたフレームワーク内での迅速な思考と深い思考の両方をサポートするハイブリッド推論モデルを開拓した。
実験により,本モデルでは,30B以下のモデル間でのSEA多言語およびeコマース性能を実証し,推論コストを著しく低減した。
関連論文リスト
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - Evolutionary Optimization of Model Merging Recipes [21.41838972039297]
大規模言語モデル (LLM) はますます能力が高まっているが、その開発にはかなりの計算資源を必要とすることが多い。
本稿では,様々なオープンソースモデルの効果的な組み合わせを自動的に発見することで,この制限を克服する進化的アプローチを提案する。
この作業は、新しい最先端のモデルをオープンソースコミュニティにコントリビュートするだけでなく、自動化されたモデル構成のための新しいパラダイムも導入します。
論文 参考訳(メタデータ) (2024-03-19T22:56:53Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - MindLLM: Pre-training Lightweight Large Language Model from Scratch,
Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。
大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。
MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-10-24T12:22:34Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。