論文の概要: Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts
- arxiv url: http://arxiv.org/abs/2602.13367v1
- Date: Fri, 13 Feb 2026 13:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.947109
- Title: Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts
- Title(参考訳): Nanbeige4.1-3B:小さな一般モデル。
- Authors: Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen,
- Abstract要約: Nanbeige4.1-3Bはオープンソースの小型言語モデル(SLM)である。
3Bパラメータしか持たない強力なエージェント動作、コード生成、一般的な推論を同時に達成する。
以上の結果から,小型モデルでは,幅広い能力と強力な特殊化を同時に達成できることが示唆された。
- 参考スコア(独自算出の注目度): 16.810363861148513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.
- Abstract(参考訳): 本稿では,3Bパラメータのみによる強力なエージェント動作,コード生成,一般推論を同時に実現する汎用言語モデルであるNanbeige4.1-3Bを提案する。
私たちの知る限りでは、単一のモデルでそのような汎用性を実現するのは、SLM(Small Language Model)が初めてである。
推論と選好の整合性を改善するため、ポイントワイドとペアワイドの報奨モデルを組み合わせることで、高品質でヒューマンアラインな応答を確実にする。
コード生成では、強化学習における複雑性を考慮した報酬を設計し、正確性と効率の両方を最適化します。
深層探索では、複雑なデータ合成を行い、訓練中にターンレベルの監視を取り入れる。
これにより安定した長距離ツールインタラクションが可能になり、複雑な問題解決のためにNanbeige4.1-3Bは600個のツールコール・ターンを確実に実行することができる。
広汎な実験結果から、Nanbeige4.1-3Bは、Nanbeige4-3B-2511やQwen3-4Bのような類似のスケールの先行モデルよりも大幅に優れており、Qwen3-30B-A3Bのようなより大型のモデルよりも優れた性能を示した。
以上の結果から,3Bパラメータモデルの可能性を再定義し,より広い能力と強力な特殊化を同時に達成できることが示唆された。
関連論文リスト
- Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models [23.832817775138675]
Nanbeige4-3Bは小型だが高性能な言語モデルである。
23Tの高品質トークンで事前訓練され、3000万以上の多様な命令に基づいて微調整され、小型言語モデルのスケーリング法則の境界を広げる。
論文 参考訳(メタデータ) (2025-12-06T03:36:27Z) - Model Whisper: Steering Vectors Unlock Large Language Models' Potential in Test-time [6.741914038966904]
テスト時間ステアリングベクトル(TTSV, Test-Time Steering Vectors)という軽量なコンポーネントを導入し、モデルパラメータを完全に凍結したまま入力にプリコンパイルする。
TTSVは軽量かつ高効率で最適化できるので、プラグインとプレイの強化になる。
提案手法は, 操舵ベクトルを多種多様なタスクにまたがって高度に伝達可能であることを示すとともに, 堅牢な一般化を示す。
論文 参考訳(メタデータ) (2025-12-04T12:36:16Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。