論文の概要: Apriel-1.5-15b-Thinker
- arxiv url: http://arxiv.org/abs/2510.01141v1
- Date: Wed, 01 Oct 2025 17:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.690733
- Title: Apriel-1.5-15b-Thinker
- Title(参考訳): Apriel-1.5-15b-Thinker
- Authors: Shruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, Masoud Hashemi, Rishabh Maheshwary, Shiva Krishna Reddy Malay, Jash Mehta, Pulkit Pattnaik, Saloni Mittal, Khalil Slimi, Kelechi Ogueji, Akintunde Oladipo, Soham Parikh, Oluwanifemi Bamgbose, Toby Liang, Ahmed Masry, Khyati Mahajan, Sai Rajeswar Mudumba, Vikas Yadav, Sathwik Tejaswi Madhusudhan, Torsten Scholak, Sagar Davasam, Srinivas Sunkara, Nicholas Chapados,
- Abstract要約: Apriel-1.5-15B-Thinkerは15ビリオンパラメータのオープンウェイトマルチモーダル推論モデルである。
厳格なスケールではなく、トレーニング設計によってフロンティアレベルのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 19.19917266898226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Apriel-1.5-15B-Thinker, a 15-billion parameter open-weights multimodal reasoning model that achieves frontier-level performance through training design rather than sheer scale. Starting from Pixtral-12B, we apply a progressive three-stage methodology: (1) depth upscaling to expand reasoning capacity without pretraining from scratch, (2) staged continual pre-training that first develops foundational text and vision understanding, then enhances visual reasoning through targeted synthetic data generation addressing spatial structure, compositional understanding, and fine-grained perception, and (3) high-quality text-only supervised fine-tuning on curated instruction-response pairs with explicit reasoning traces spanning mathematics, coding, science, and tool use. Notably, our model achieves competitive results without reinforcement learning or preference optimization, isolating the contribution of our data-centric continual pre-training approach. On the Artificial Analysis Intelligence Index, Apriel-1.5-15B-Thinker attains a score of 52, matching DeepSeek-R1-0528 despite requiring significantly fewer computational resources. Across ten image benchmarks, its performance is on average within five points of Gemini-2.5-Flash and Claude Sonnet-3.7, a key achievement for a model operating within single-GPU deployment constraints. Our results demonstrate that thoughtful mid-training 2 design can close substantial capability gaps without massive scale, making frontier-level multimodal reasoning accessible to organizations with limited infrastructure. We release the model checkpoint, all training recipes, and evaluation protocols under the MIT license to to advance open-source research.
- Abstract(参考訳): Apriel-1.5-15B-Thinker, a 15-billion parameter open-weights multimodal reasoning model that achieved frontier-level performance through training design than sheer scale。
Pixtral-12Bを出発点として,(1)スクラッチから事前学習することなく推論能力を拡張する深層アップスケーリング,(2)基礎的テキストと視覚理解を最初に発達させる段階的な継続事前学習,(3)空間構造,構成的理解,微粒化知覚に対処するターゲットとなる合成データ生成による視覚的推論の強化,(3) 数学,コーディング,科学,ツール使用を対象とする明示的な推論トレースを備えた,学習された命令-応答ペアの高品質な微調整を行う。
特に、強化学習や選好最適化を使わずに競争結果を達成し、データ中心の連続的事前学習アプローチの貢献を分離する。
Artificial Analysis Intelligence Indexでは、Apriel-1.5-15B-Thinkerが52点を獲得し、DeepSeek-R1-0528と一致する。
10のイメージベンチマークで、パフォーマンスはGemini-2.5-FlashとClaude Sonnet-3.7の5ポイント以内である。
以上の結果から,検討中の中級2設計は大規模化することなく,実質的な能力ギャップを埋めることが可能であり,インフラに制限のある組織でも,フロンティアレベルのマルチモーダル推論が利用できるようになることが示唆された。
我々は、オープンソース研究を進めるために、MITライセンスの下でモデルチェックポイント、すべてのトレーニングレシピ、評価プロトコルをリリースします。
関連論文リスト
- Reinforcement Mid-Training [16.826401071555704]
トレーニング中における効率,適応性,統一的な強化のためのフレームワークを提案する。
RMTは,言語モデリングにおける推論長の21%に過ぎず,+64.91%の性能向上を実現している。
また, 強化中等訓練後に得られたチェックポイントは, その後のトレーニングに有効であり, 数学領域では+18.76%の改善が得られた。
論文 参考訳(メタデータ) (2025-09-29T07:21:24Z) - ReasonBridge: Efficient Reasoning Transfer from Closed to Open-Source Language Models [1.125423117145132]
本稿では、強力なクローズドソースからオープンソースモデルへの推論能力を効率的に伝達する手法であるReasonBridgeを紹介する。
我々は、難易度、多様性、品質を重視した、1,000の慎重にキュレートされた推論トレースしか持たない、カスタマイズされたデータセットReason1Kを開発した。
総合的な評価によると、ReasonBridgeはベンチマークタスクにおいて、オープンソースモデルの推論能力を最大23%改善する。
論文 参考訳(メタデータ) (2025-06-28T12:22:55Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。