論文の概要: Jan-nano Technical Report
- arxiv url: http://arxiv.org/abs/2506.22760v1
- Date: Sat, 28 Jun 2025 05:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.552437
- Title: Jan-nano Technical Report
- Title(参考訳): Jan-nano 技術報告
- Authors: Alan Dao, Dinh Bach Vu,
- Abstract要約: Jan-nanoは、急進的な特殊化によって効率を再定義する4Bパラメータ言語モデルである。
新規多段RLVRシステムを用いたQwen3-4Bの微細加工
128Kのコンテキスト長を持つJan-nano氏は、インテリジェンスとはスケールではなく、戦略だ、と証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most language models face a fundamental tradeoff where powerful capabilities require substantial computational resources. We shatter this constraint with Jan-nano, a 4B parameter language model that redefines efficiency through radical specialization: instead of trying to know everything, it masters the art of finding anything instantly. Fine-tuned from Qwen3-4B using our novel multi-stage RLVR system that completely eliminates reliance on next token prediction training (SFT), Jan-nano achieves 83.2% on SimpleQA benchmark with MCP integration while running on consumer hardware. With 128K context length, Jan-nano proves that intelligence isn't about scale, it's about strategy.
- Abstract(参考訳): ほとんどの言語モデルは、強力な能力がかなりの計算資源を必要とする基本的なトレードオフに直面している。
私たちはこの制約を、急進的な特殊化を通じて効率を再定義する4Bパラメータ言語モデルであるJan-nanoで壊します。
新たなマルチステージRLVRシステムを用いてQwen3-4Bを微調整し、次のトークン予測トレーニング(SFT)への依存を完全に排除し、コンシューマハードウェア上で動作しながら、MPPを統合したSimpleQAベンチマークで83.2%を達成した。
128Kのコンテキスト長を持つJan-nano氏は、インテリジェンスとはスケールではなく、戦略だ、と証明している。
関連論文リスト
- Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。
本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。
我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文 参考訳(メタデータ) (2024-11-28T13:45:42Z) - Stuffed Mamba: Oversized States Lead to the Inability to Forget [69.36377985746878]
Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。
モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。
我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
論文 参考訳(メタデータ) (2024-10-09T17:54:28Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - High-throughput Visual Nano-drone to Nano-drone Relative Localization using Onboard Fully Convolutional Networks [51.23613834703353]
相対的なドローンとドローンのローカライゼーションは、どんなSwarm操作でも基本的なビルディングブロックである。
我々は、新しいビジョンベース完全畳み込みニューラルネットワーク(FCNN)に基づく垂直統合システムを提案する。
その結果,水平画像座標で32~47%,垂直画像座標で18~55%,実世界の30k画像のデータセットでR2乗改善が得られた。
論文 参考訳(メタデータ) (2024-02-21T12:34:31Z) - Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。
LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z) - Distilling Large Language Models into Tiny and Effective Students using
pQRNN [7.935058790320271]
pQRNNはプロジェクションベースの埋め込み不要なニューラルエンコーダで、自然言語処理タスクに小さく、効果的である。
また,pQRNNは,140倍小さいにもかかわらず,事前学習によるLSTMモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2021-01-21T23:45:50Z) - Rethinking Generalization in American Sign Language Prediction for Edge
Devices with Extremely Low Memory Footprint [0.0]
本稿では,ARM Cortex-M7マイクロコントローラ上でのAmerican Sign Languageのアルファベット検出アーキテクチャを提案する。
提案したモデルは約185KBの後量子化であり、推論速度は毎秒20フレームである。
論文 参考訳(メタデータ) (2020-11-27T14:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。