論文の概要: Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models
- arxiv url: http://arxiv.org/abs/2512.24618v2
- Date: Mon, 05 Jan 2026 02:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.749904
- Title: Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models
- Title(参考訳): Youtu-LLM: 軽量大規模言語モデルに対するネイティブエージェントの可能性を解き放つ
- Authors: Junru Lu, Jiarui Qin, Lingfeng Qiao, Yinghui Li, Xinyi Dai, Bo Ke, Jianfeng He, Ruizhi Qiao, Di Yin, Xing Sun, Yunsheng Wu, Yinsong Liu, Shuangyin Liu, Mingkong Tang, Haodong Lin, Jiayi Kuang, Fanxu Meng, Xiaojuan Tang, Yunjia Xi, Junjie Huang, Haotong Yang, Zhenyi Shen, Yangning Li, Qianwen Zhang, Yifei Yu, Siyu An, Junnan Dong, Qiufeng Wang, Jie Wang, Keyu Chen, Wei Wen, Taian Guo, Zhifeng Shen, Daohai Yu, Jiahao Li, Ke Li, Zongyi Li, Xiaoyu Tan,
- Abstract要約: ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
- 参考スコア(独自算出の注目度): 78.73992315826035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Youtu-LLM, a lightweight yet powerful language model that harmonizes high computational efficiency with native agentic intelligence. Unlike typical small models that rely on distillation, Youtu-LLM (1.96B) is pre-trained from scratch to systematically cultivate reasoning and planning capabilities. The key technical advancements are as follows: (1) Compact Architecture with Long-Context Support: Built on a dense Multi-Latent Attention (MLA) architecture with a novel STEM-oriented vocabulary, Youtu-LLM supports a 128k context window. This design enables robust long-context reasoning and state tracking within a minimal memory footprint, making it ideal for long-horizon agent and reasoning tasks. (2) Principled "Commonsense-STEM-Agent" Curriculum: We curated a massive corpus of approximately 11T tokens and implemented a multi-stage training strategy. By progressively shifting the pre-training data distribution from general commonsense to complex STEM and agentic tasks, we ensure the model acquires deep cognitive abilities rather than superficial alignment. (3) Scalable Agentic Mid-training: Specifically for the agentic mid-training, we employ diverse data construction schemes to synthesize rich and varied trajectories across math, coding, and tool-use domains. This high-quality data enables the model to internalize planning and reflection behaviors effectively. Extensive evaluations show that Youtu-LLM sets a new state-of-the-art for sub-2B LLMs. On general benchmarks, it achieves competitive performance against larger models, while on agent-specific tasks, it significantly surpasses existing SOTA baselines, demonstrating that lightweight models can possess strong intrinsic agentic capabilities.
- Abstract(参考訳): ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量で強力な言語モデルであるYoutu-LLMを紹介する。
蒸留に依存する典型的な小型モデルとは異なり、Youtu-LLM (1.96B) はスクラッチから体系的に推論と計画能力を育むために事前訓練されている。
1) 長期サポート付きコンパクトアーキテクチャ: 新しいSTEM指向のボキャブラリを備えた高密度マルチレイテンシアテンション(MLA)アーキテクチャ上に構築され、Youtu-LLMは128kのコンテキストウィンドウをサポートする。
この設計により、最小限のメモリフットプリント内での堅牢なロングコンテキスト推論とステートトラッキングが可能になり、ロングホライゾンエージェントや推論タスクに最適である。
2)「コモンセンス・STEM-Agent」カリキュラムを原則として,約11Tトークンの大量コーパスをキュレートし,多段階のトレーニング戦略を実装した。
事前学習したデータ分布を、一般的な常識から複雑なSTEMやエージェントタスクに段階的にシフトさせることで、表面的アライメントよりも深層認知能力の獲得を確実にする。
(3) スケーラブルなエージェント・ミッドトレーニング: エージェント・ミッドトレーニングでは, 数学, コーディング, ツール・ユース・ドメインにまたがる多種多様なトラジェクトリを合成するために, 多様なデータ構築方式を用いる。
この高品質なデータは、モデルが計画やリフレクションの振る舞いを効果的に内部化することを可能にする。
広範に評価した結果,Youtu-LLM はサブ-2B LLM の最先端を新たに設定した。
一般的なベンチマークでは、エージェント固有のタスクでは既存のSOTAベースラインをはるかに上回り、軽量モデルは強力な本質的なエージェント能力を持つことを示した。
関連論文リスト
- PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - Generative World Models of Tasks: LLM-Driven Hierarchical Scaffolding for Embodied Agents [0.0]
本稿では,世界物理学とそのタスク意味論をモデル化した意思決定のための効果的な世界モデルを提案する。
低リソースマルチエージェントサッカーにおける2024年の研究の体系的レビューは、象徴的手法と階層的手法を統合するための明確な傾向を明らかにしている。
私たちはこの傾向を階層的タスク環境(HTE)のフレームワークとして形式化し、シンプルでリアクティブな振る舞いと洗練された戦略的チームのプレーのギャップを埋めるのに不可欠です。
論文 参考訳(メタデータ) (2025-09-05T01:03:51Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - Speed Always Wins: A Survey on Efficient Architectures for Large Language Models [51.817121227562964]
大規模言語モデル(LLM)は、言語理解、生成、推論、マルチモーダルモデルの能力境界の押し付けにおいて、素晴らしい結果をもたらしている。
トランスフォーマーモデルは、現代のLLMの基礎として、優れたスケーリング特性を備えた強力なベースラインを提供する。
従来のトランスフォーマーアーキテクチャは、相当な計算を必要とし、大規模なトレーニングと実践的なデプロイメントに重大な障害を生じさせる。
論文 参考訳(メタデータ) (2025-08-13T14:13:46Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - Factored Agents: Decoupling In-Context Learning and Memorization for Robust Tool Use [4.437184840125514]
本稿ではエージェントAIにおける従来の単一エージェントシステムの限界を克服する新しいファクターエージェントアーキテクチャを提案する。
提案手法はエージェントを,(1)高レベルプランナーおよびインコンテキスト学習者として機能する大規模言語モデル,(2)ツールフォーマットと出力の記憶器として機能する小型言語モデルに分解する。
経験的評価により,本アーキテクチャは,テキスト内学習と静的記憶のトレードオフを解明しつつ,計画精度と誤り回復性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-03-29T01:27:11Z) - MindLLM: Pre-training Lightweight Large Language Model from Scratch,
Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。
大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。
MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-10-24T12:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。