Fugu-MT 論文翻訳(概要): Jan-nano Technical Report

論文の概要: Jan-nano Technical Report

arxiv url: http://arxiv.org/abs/2506.22760v1
Date: Sat, 28 Jun 2025 05:44:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.552437
Title: Jan-nano Technical Report
Title（参考訳）: Jan-nano 技術報告
Authors: Alan Dao, Dinh Bach Vu,
Abstract要約: Jan-nanoは、急進的な特殊化によって効率を再定義する4Bパラメータ言語モデルである。新規多段RLVRシステムを用いたQwen3-4Bの微細加工 128Kのコンテキスト長を持つJan-nano氏は、インテリジェンスとはスケールではなく、戦略だ、と証明している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most language models face a fundamental tradeoff where powerful capabilities require substantial computational resources. We shatter this constraint with Jan-nano, a 4B parameter language model that redefines efficiency through radical specialization: instead of trying to know everything, it masters the art of finding anything instantly. Fine-tuned from Qwen3-4B using our novel multi-stage RLVR system that completely eliminates reliance on next token prediction training (SFT), Jan-nano achieves 83.2% on SimpleQA benchmark with MCP integration while running on consumer hardware. With 128K context length, Jan-nano proves that intelligence isn't about scale, it's about strategy.
Abstract（参考訳）: ほとんどの言語モデルは、強力な能力がかなりの計算資源を必要とする基本的なトレードオフに直面している。私たちはこの制約を、急進的な特殊化を通じて効率を再定義する4Bパラメータ言語モデルであるJan-nanoで壊します。新たなマルチステージRLVRシステムを用いてQwen3-4Bを微調整し、次のトークン予測トレーニング(SFT)への依存を完全に排除し、コンシューマハードウェア上で動作しながら、MPPを統合したSimpleQAベンチマークで83.2%を達成した。 128Kのコンテキスト長を持つJan-nano氏は、インテリジェンスとはスケールではなく、戦略だ、と証明している。

関連論文リスト

KELPS: A Framework for Verified Multi-Language Autoformalization via Semantic-Syntactic Alignment [5.295540405828356]
KELPSは、非公式データを形式言語に翻訳、合成、フィルタリングするための反復的なフレームワークである。まず、自然言語を知識方程式(KEs)に翻訳する。次に、構文構造と意味的意味の両方を保持する厳密に定義された規則により、ターゲット言語に変換する。このプロセスは6万以上の問題からなる並列コーパスを生み出した。
論文参考訳（メタデータ） (2025-07-11T15:05:06Z)
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文参考訳（メタデータ） (2024-11-28T13:45:42Z)
Stuffed Mamba: Oversized States Lead to the Inability to Forget [69.36377985746878]
Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
論文参考訳（メタデータ） (2024-10-09T17:54:28Z)
On-device Self-supervised Learning of Visual Perception Tasks aboard Hardware-limited Nano-quadrotors [53.59319391812798]
SI50グラム以下のナノドロンは、学術と産業の両方で勢いを増している。彼らの最も魅力的なアプリケーションは、知覚のためのディープラーニングモデルに依存している。未知の環境にデプロイする場合、これらのモデルはドメインシフトによってパフォーマンスが低下することが多い。本研究では,ナノドローンを用いたデバイス上での学習を初めて提案する。
論文参考訳（メタデータ） (2024-03-06T22:04:14Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
High-throughput Visual Nano-drone to Nano-drone Relative Localization using Onboard Fully Convolutional Networks [51.23613834703353]
相対的なドローンとドローンのローカライゼーションは、どんなSwarm操作でも基本的なビルディングブロックである。我々は、新しいビジョンベース完全畳み込みニューラルネットワーク(FCNN)に基づく垂直統合システムを提案する。その結果,水平画像座標で32～47%,垂直画像座標で18～55%,実世界の30k画像のデータセットでR2乗改善が得られた。
論文参考訳（メタデータ） (2024-02-21T12:34:31Z)
Adaptive Deep Learning for Efficient Visual Pose Estimation aboard Ultra-low-power Nano-drones [5.382126081742012]
視覚に基づく人間のポーズ推定タスクを効率的に実行するための適応的深層学習に基づく新しいメカニズムを提案する。実世界のデータセットと実際のナノドロンのハードウェアでは,平均絶対誤差(MAE)を維持しながら28%のレイテンシ低減を実現し,アイソレイテンシでは3%のMAE削減,絶対ピーク性能,すなわちSoAモデルよりも6%向上した。
論文参考訳（メタデータ） (2024-01-26T23:04:26Z)
Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。 LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文参考訳（メタデータ） (2023-12-18T13:40:16Z)
nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文参考訳（メタデータ） (2023-04-14T00:45:01Z)
From Good to Best: Two-Stage Training for Cross-lingual Machine Reading Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文参考訳（メタデータ） (2021-12-09T07:31:15Z)
ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文参考訳（メタデータ） (2021-07-05T16:54:59Z)
Distilling Large Language Models into Tiny and Effective Students using pQRNN [7.935058790320271]
pQRNNはプロジェクションベースの埋め込み不要なニューラルエンコーダで、自然言語処理タスクに小さく、効果的である。また,pQRNNは,140倍小さいにもかかわらず,事前学習によるLSTMモデルよりも有意に優れていた。
論文参考訳（メタデータ） (2021-01-21T23:45:50Z)
Rethinking Generalization in American Sign Language Prediction for Edge Devices with Extremely Low Memory Footprint [0.0]
本稿では,ARM Cortex-M7マイクロコントローラ上でのAmerican Sign Languageのアルファベット検出アーキテクチャを提案する。提案したモデルは約185KBの後量子化であり、推論速度は毎秒20フレームである。
論文参考訳（メタデータ） (2020-11-27T14:05:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。