論文の概要: Solar Open Technical Report
- arxiv url: http://arxiv.org/abs/2601.07022v1
- Date: Sun, 11 Jan 2026 18:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.123081
- Title: Solar Open Technical Report
- Title(参考訳): Solar Open Technical Report
- Authors: Sungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh,
- Abstract要約: Solar Openは、競争力のあるLLMを構築するための体系的な方法論を実証している。
高品質・ドメイン固有・RL指向の4.5Tトークンを合成する。
提案するフレームワークであるSnapPOを効率的な最適化に応用する。
- 参考スコア(独自算出の注目度): 65.93022715874504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.
- Abstract(参考訳): 未観測言語のための102Bパラメータバイリンガル混合言語モデルであるSolar Openを紹介する。
Solar Openは、3つの相互接続課題に対処することで、競争力のあるLLMを構築するための体系的な方法論を実証している。
まず、データ不足にもかかわらず効果的にトレーニングするために、高品質、ドメイン固有、RL指向のデータからなる4.5Tトークンを合成する。
第2に、20兆トークンにわたる構成、品質閾値、ドメインカバレッジを共同最適化する漸進的なカリキュラムを通じて、これらのデータをコーディネートする。
第三に、スケーラブルなRLによる推論機能を実現するために、提案したフレームワークSnapPOを効率的な最適化に応用する。
英語と韓国語でのベンチマーク全体を通じて、Solar Openは競争力のあるパフォーマンスを達成し、この方法論が不十分な言語AI開発に有効であることを実証している。
関連論文リスト
- SAGE-LD: Towards Scalable and Generalizable End-to-End Language Diarization via Simulated Data Augmentation [20.81567866070287]
本稿では,1つのフレームワーク内で非制約言語をサポートするニューラル音声言語ダイアリゼーションモデルを提案する。
提案手法は,多言語認識に基づく学習可能なクエリベースアーキテクチャと,シミュレートされたコードスイッチングデータに基づく大規模事前学習を統合した。
論文 参考訳(メタデータ) (2025-10-01T07:01:33Z) - Breaking Language Barriers: Equitable Performance in Multilingual Language Models [17.343456129678067]
LLMは、ヒンディー語やスワヒリ語のような低リソース言語(LRL)において、英語のような高リソース言語(HRL)と比較して、CSR(Common Sense Reasoning)タスクにおいて、さらにパフォーマンスが悪くなる。
我々のアプローチは、制御された言語混合法を用いて生成された合成コード切替テキスト上でLLMを微調整することである。
そこで本稿では,CommonSenseQAデータセットから派生した,3つの異なる言語比構成を特徴とする合成符号切替テキストのデータセットを提案する。
論文 参考訳(メタデータ) (2025-08-18T06:50:24Z) - SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work [87.9341538630949]
第1回手話生産チャレンジはCVPR 2025で第3回SLRTPワークショップの一環として開催された。
コンペティションの目的は、音声言語文からスケルトンポーズのシーケンスに変換するアーキテクチャを評価することである。
本稿では,挑戦設計と入賞方法について述べる。
論文 参考訳(メタデータ) (2025-08-09T11:57:33Z) - Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - ConVerSum: A Contrastive Learning-based Approach for Data-Scarce Solution of Cross-Lingual Summarization Beyond Direct Equivalents [4.029675201787349]
言語間の要約は自然言語処理の洗練された分野である。
高品質なCLSデータがない場合、CLSには実現可能な解決策がない。
コントラスト学習のパワーを活かしたCLSのための新しいデータ効率のアプローチであるConVerSumを提案する。
論文 参考訳(メタデータ) (2024-08-17T19:03:53Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Cross-Lingual Semantic Role Labeling with High-Quality Translated
Training Corpus [41.031187560839555]
言語間セマンティックロールのラベル付けは、この問題に対処するための有望な方法である。
目的言語のための高品質なトレーニングデータセットを構築するためのコーパス翻訳に基づく新しい代替案を提案する。
ユニバーサル・プロポーション・バンクの実験結果から, 翻訳法が有効であることが示唆された。
論文 参考訳(メタデータ) (2020-04-14T04:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。