論文の概要: EXAONE Deep: Reasoning Enhanced Language Models
- arxiv url: http://arxiv.org/abs/2503.12524v2
- Date: Wed, 19 Mar 2025 07:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 12:01:07.536461
- Title: EXAONE Deep: Reasoning Enhanced Language Models
- Title(参考訳): EXAONE Deep: 拡張言語モデルの推論
- Authors: LG AI Research, Kyunghoon Bae, Eunbi Choi, Kibong Choi, Stanley Jungkyu Choi, Yemuk Choi, Seokhee Hong, Junwon Hwang, Hyojin Jeon, Kijeong Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Yongil Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Sangha Park, Yongmin Park, Sihoon Yang, Heuiyeen Yeen, Sihyuk Yi, Hyeongu Yun,
- Abstract要約: 本稿では,様々な推論タスクにおいて優れた機能を示すEXAONE Deepシリーズについて述べる。
我々は、思考プロセスの長いストリームを含む推論特化データセットに基づいてモデルをトレーニングする。
- 参考スコア(独自算出の注目度): 35.326172288018505
- License:
- Abstract: We present EXAONE Deep series, which exhibits superior capabilities in various reasoning tasks, including math and coding benchmarks. We train our models mainly on the reasoning-specialized dataset that incorporates long streams of thought processes. Evaluation results show that our smaller models, EXAONE Deep 2.4B and 7.8B, outperform other models of comparable size, while the largest model, EXAONE Deep 32B, demonstrates competitive performance against leading open-weight models. All EXAONE Deep models are openly available for research purposes and can be downloaded from https://huggingface.co/LGAI-EXAONE
- Abstract(参考訳): 本稿では,数学やコーディングベンチマークなど,様々な推論タスクにおいて優れた機能を示すEXAONE Deepシリーズを提案する。
我々は、思考プロセスの長いストリームを含む推論特化データセットに基づいてモデルをトレーニングする。
評価結果から,我々の小型モデルであるEXAONE Deep 2.4Bと7.8Bは,他のモデルよりも優れており,最大のモデルであるEXAONE Deep 32Bは,主要なオープンウェイトモデルと競合する性能を示している。
すべてのEXAONE Deepモデルは研究目的で公開されており、https://huggingface.co/LGAI-EXAONEからダウンロードできる。
関連論文リスト
- Finedeep: Mitigating Sparse Activation in Dense LLMs via Multi-Layer Fine-Grained Experts [82.74439280067492]
ファインディープ(英: Finedeep)は、高密度モデルのための、きめ細かいきめ細かなアーキテクチャである。
我々のフレームワークは、従来の高密度モデルのフィードフォワードニューラルネットワーク層を小さな専門家に分割する。
各専門家の貢献度を決定するための新しいルーティング機構が提案されている。
論文 参考訳(メタデータ) (2025-02-18T15:09:58Z) - Quantifying the Capability Boundary of DeepSeek Models: An Application-Driven Performance Analysis [13.353944118250993]
我々はDeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwenシリーズ、DeepSeek-R1-Distill-Llamaシリーズとその対応する4ビット量子化モデルを評価する。
この結果から、推論強化モデルが一般に強力であるにもかかわらず、全てのタスクにおいて普遍的に優れるわけではないことが示唆された。
論文 参考訳(メタデータ) (2025-02-16T15:29:58Z) - EXAONE 3.5: Series of Large Language Models for Real-world Use Cases [35.04562823885241]
EXAONE 3.5言語モデルは32B、7.8B、2.4Bの3つの構成で提供されている。
商用利用については、LG AI Researchの公式コンタクトポイントを参照してください。
論文 参考訳(メタデータ) (2024-12-06T08:53:46Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - EXAONE 3.0 7.8B Instruction Tuned Language Model [41.95996640625627]
EXAONE 3.0命令調整言語モデルは、Large Language Models (LLMs) の最初のオープンモデルである。
EXAONE 3.0は、同じ大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。
比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般的なタスクや複雑な推論において魅力的な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2024-08-07T04:38:38Z) - Using Game Play to Investigate Multimodal and Conversational Grounding in Large Multimodal Models [14.878276985702685]
本稿では,テキストモデルからマルチモーダルモデルへの評価パラダイムを提案する。
我々は、視覚情報から状況を表現するためのモデルの能力に挑戦するゲームを定義し、対話を通じてそのような表現を調整する。
最大のクローズドモデルは、私たちが定義したゲームでかなりよく機能し、最高のオープンウェイトモデルでさえそれらと苦労している。
論文 参考訳(メタデータ) (2024-06-20T06:56:19Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。