論文の概要: Motif 2.6B Technical Report
- arxiv url: http://arxiv.org/abs/2508.09148v1
- Date: Sat, 02 Aug 2025 08:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.176764
- Title: Motif 2.6B Technical Report
- Title(参考訳): Motif 2.6Bテクニカルレポート
- Authors: Junghwan Lim, Sungmin Lee, Dongseok Kim, Eunhwan Park, Hyunbyung Park, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Jihwan Kim, Minjae Kim, Taehwan Kim, Youngrok Kim, Haesol Lee, Jeesoo Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Daewon Suh, Dongjoo Weon,
- Abstract要約: 先進言語モデル(LLM)の基礎モデルであるMotif-2.6Bを紹介する。
Motif-2.6B にはdifferial Attention と PolyNorm のアクティベーション機能が組み込まれている。
Motif-2.6Bは、様々なベンチマークで同様の大きさの最先端モデルの性能を一貫して満たしたり超えたりしている。
- 参考スコア(独自算出の注目度): 12.27189524668936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have revolutionized artificial intelligence, yet developing an effective foundational LLM that balances high performance with computational efficiency remains challenging, especially for emerging research groups. To address this gap, we introduce Motif-2.6B, a 2.6-billion-parameter foundation model designed to democratize advanced LLM capabilities. Motif-2.6B incorporates several innovative architectural enhancements, including Differential Attention and PolyNorm activation functions, which improve long-context comprehension, reduce hallucination, and enhance in-context learning capabilities. We rigorously tested multiple novel architectural components through extensive experimentation to determine the optimal architecture for Motif-2.6B. Comprehensive evaluations demonstrate that Motif-2.6B consistently meets or exceeds the performance of similarly sized state-of-the-art models across diverse benchmarks, showcasing its effectiveness, scalability, and real-world applicability. Through detailed experiments and tailored techniques, Motif-2.6B significantly advances the landscape of efficient, scalable, and powerful foundational LLMs, offering valuable insights and a robust foundation for future research and deployment.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩は人工知能に革命をもたらしたが、特に新興の研究グループでは、高性能と計算効率のバランスをとる効果的な基礎的 LLM の開発は困難なままである。
このギャップに対処するために、先進的なLCM能力を民主化するために設計された2.6ビリオンパラメータ基礎モデルであるMotif-2.6Bを導入する。
Motif-2.6Bにはディファレンシャル・アテンションやポリノームのアクティベーション機能など、いくつかの革新的なアーキテクチャ拡張が含まれている。
我々は、Motif-2.6Bの最適アーキテクチャを決定するために、広範囲な実験を通じて、複数の新しいアーキテクチャコンポーネントを厳格にテストした。
総合的な評価では、Motif-2.6Bは様々なベンチマークで同様の大きさの最先端モデルの性能を一貫して満たし、性能、スケーラビリティ、実世界の適用性を示している。
詳細な実験と調整された技術を通じて、Motif-2.6Bは効率的でスケーラブルで強力な基礎的LLMの展望を著しく前進させ、価値ある洞察と将来の研究と展開のための堅牢な基盤を提供する。
関連論文リスト
- Speed Always Wins: A Survey on Efficient Architectures for Large Language Models [51.817121227562964]
大規模言語モデル(LLM)は、言語理解、生成、推論、マルチモーダルモデルの能力境界の押し付けにおいて、素晴らしい結果をもたらしている。
トランスフォーマーモデルは、現代のLLMの基礎として、優れたスケーリング特性を備えた強力なベースラインを提供する。
従来のトランスフォーマーアーキテクチャは、相当な計算を必要とし、大規模なトレーニングと実践的なデプロイメントに重大な障害を生じさせる。
論文 参考訳(メタデータ) (2025-08-13T14:13:46Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Mixture of Experts in Large Language Models [3.1494372222592224]
MoEアーキテクチャは、最小の計算オーバーヘッドを維持しながら、モデルパフォーマンスを大幅に向上させる。
本分析では,モデルキャパシティの向上,タスク固有性能の向上,モデルキャパシティの効率向上など,MoEの重要なメリットを明らかにした。
このレビューでは、現在の研究の制限、オープンな課題、将来的な方向性について概説し、MoEアーキテクチャとそのアプリケーションにおける継続的なイノベーションの基礎を提供する。
論文 参考訳(メタデータ) (2025-07-15T10:36:43Z) - Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start [24.244577648817188]
アハモーメント」パターンは強化学習(RL)の創発的特性に起因することが多い
本稿では,2段階アプローチによるマルチモーダル推論の強化に関する総合的研究について述べる。
実験の結果,この組み合わせはSFTのみの手法とRLのみの手法より一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-28T13:21:38Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。