論文の概要: Nautile-370M: Spectral Memory Meets Attention in a Small Reasoning Model
- arxiv url: http://arxiv.org/abs/2604.24809v1
- Date: Mon, 27 Apr 2026 08:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.513613
- Title: Nautile-370M: Spectral Memory Meets Attention in a Small Reasoning Model
- Title(参考訳): Nautile-370M:小さな推論モデルにおけるスペクトルメモリの注意
- Authors: Maixent Chenebaux,
- Abstract要約: 厳密なパラメータと推論予算の下で、効率的な推論を行うための小さな言語モデルを提案する。
Natole-370Mはハイブリッドバックボーンを使用し、2つのSeqCondアテンション層を1つのトランス層と交換する。
トレーニングデータパイプラインを説明し、推論、検証、応答品質に特化した強化学習ステージを概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Nautile-370M, a 371-million-parameter small language model designed for efficient reasoning under strict parameter and inference budgets. Nautile-370M uses a hybrid backbone in which two SeqCond Attention (SCA) layers, a linear-time spectral sequence operator inspired by SeqCondenser, alternate with one transformer layer. This design aims to retain the long-context efficiency and state-tracking benefits of structured sequential models while preserving the expressive token-to-token routing of attention. The model was trained on a single Cloud TPU v4-64 pod slice provided through the Google TPU Research Cloud (TRC) program; the subsequent reinforcement learning stage was carried out on a single NVIDIA DGX Spark. We prove that the SCA readout mechanism can exactly retrieve any individual token from the prefix summary and can reproduce any output of softmax attention as a special case, establishing that SCA is at least as expressive as full self-attention in the continuous limit. We also describe the training data pipeline and outline a reinforcement learning stage specialized for reasoning, verification, and response quality.
- Abstract(参考訳): 厳密なパラメータと推論予算に基づく効率的な推論のために設計された,371万パラメータの小型言語モデルであるNautile-370Mを提案する。
Nautile-370M は2つの SeqCond Attention (SCA) 層を持つハイブリッドバックボーンを用いており、これは SeqCondenser にインスパイアされた線形時間スペクトルシーケンス演算子である。
本設計の目的は,構造化シーケンシャルモデルの長期コンテキスト効率と状態追跡の利点を維持しつつ,注目のトークンツーツーケンルーティングを表現的に保持することである。
このモデルは、Google TPU Research Cloud (TRC)プログラムを通じて提供される単一のクラウドTPU v4-64ポッドスライスでトレーニングされ、その後の強化学習段階は、単一のNVIDIA DGX Sparkで実施された。
我々は,SCAの読み出し機構がプレフィックスサマリーから正確に個々のトークンを検索し,ソフトマックスアテンションのアウトプットを特別なケースとして再現できることを証明し,SCAが連続的な制限において,少なくとも完全な自己アテンションであることを示す。
また、トレーニングデータパイプラインを説明し、推論、検証、応答品質に特化した強化学習ステージを概説する。
関連論文リスト
- Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds [6.69660410213287]
我々は,3次元表現学習と生成学習を深く統合する利点を探るため,Point-MGEと呼ばれる革新的なフレームワークを提案する。
形状分類において、Point-MGEはModelNet40データセットで94.2%(+1.0%)、ScanObjectNNデータセットで92.9%(+5.5%)の精度を達成した。
また,非条件条件と条件条件条件条件の両方で,Point-MGEが高品質な3D形状を生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-06-25T07:57:03Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。