論文の概要: S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models
- arxiv url: http://arxiv.org/abs/2604.01168v1
- Date: Wed, 01 Apr 2026 17:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.11433
- Title: S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models
- Title(参考訳): S0チューニング:ハイブリッドリカレントアテンションモデルのゼロオーバーヘッド適応
- Authors: Jack Young,
- Abstract要約: リカレント層毎に1つの初期状態行列をチューニングし、オーバーヘッドゼロでLoRAを+10.8 pp(HumanEvalのp wenSpider)で上回る。
S0 チューニングと呼ばれるチューニングメソッドは、greedy pass@1 を +23.6 +/- 1.7 pp (10 種) で改善します。
クロスドメイン転送はMATH-500 (+4.8 pp, p = 0.00002, 8 seed) と GSM8K = 0.0003, 10 seed で重要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using roughly 48 execution-verified HumanEval training solutions, tuning a single initial state matrix per recurrent layer, with zero inference overhead, outperforms LoRA by +10.8 pp (p < 0.001) on HumanEval. The method, which we call S0 tuning, optimizes one state matrix per recurrent layer while freezing all model weights. On Qwen3.5-4B (GatedDeltaNet hybrid), S0 tuning improves greedy pass@1 by +23.6 +/- 1.7 pp (10 seeds). On FalconH1-7B (Mamba-2 hybrid), S0 reaches 71.8% +/- 1.3 and LoRA reaches 71.4% +/- 2.4 (3 seeds), statistically indistinguishable at this sample size while requiring no weight merging. Cross-domain transfer is significant on MATH-500 (+4.8 pp, p = 0.00002, 8 seeds) and GSM8K (+2.8 pp, p = 0.0003, 10 seeds); a text-to-SQL benchmark (Spider) shows no transfer, consistent with the trajectory-steering mechanism. A prefix-tuning control on a pure Transformer (Qwen2.5-3B) degrades performance by -13.9 pp under all nine configurations tested. On Qwen3.5, a per-step state-offset variant reaches +27.1 pp, above both S0 and LoRA but with per-step inference cost. Taken together, the results show that recurrent state initialization is a strong zero-inference-overhead PEFT surface for hybrid language models when verified supervision is scarce. The tuned state is a ~48 MB file; task switching requires no weight merging or model reload. Code and library: https://github.com/jackyoung27/s0-tuning.
- Abstract(参考訳): 約48個の実行検証されたHumanEvalトレーニングソリューションを使用して、リカレント層毎に1つの初期状態行列をチューニングし、推論オーバーヘッドをゼロにし、HumanEval上で+10.8 pp (p < 0.001)でLoRAを上回ります。
S0チューニングと呼ばれるこの手法は、すべてのモデル重みを凍結しながら、繰り返し層の1つの状態行列を最適化する。
Qwen3.5-4B(GatedDeltaNetハイブリッド)では、S0チューニングはgreedy pass@1を+23.6 +/- 1.7 pp (10シード)で改善する。
FalconH1-7B(Mamba-2ハイブリッド)では、S0は71.8%+/- 1.3に達し、LoRAは71.4%+/-2.4 (3種)に達する。
MATH-500 (+4.8 pp, p = 0.00002, 8 seed) と GSM8K (+2.8 pp, p = 0.0003, 10 seed) ではクロスドメイン転送が重要である。
純粋なトランスフォーマー(Qwen2.5-3B)のプレフィックスチューニング制御は、テストされた9つの構成すべてで-13.9ppで性能が低下する。
Qwen3.5 では、ステップごとの状態オフセットの変種は S0 と LoRA のどちらよりも高いが、ステップごとの推論コストで +27.1 pp に達する。
その結果、再帰状態の初期化は、検証監督が不十分な場合、ハイブリッド言語モデルに対する強いゼロ・インセプションオーバヘッドPEFT曲面であることが判明した。
チューニングされた状態は ~48 MB のファイルである。
コードとライブラリ:https://github.com/jackyoung27/s0-tuning。
関連論文リスト
- Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - Token Coherence: Adapting MESI Cache Protocols to Minimize Synchronization Overhead in Multi-Agent LLM Systems [0.0]
マルチエージェントLLMオーケストレーションは、エージェント、ステップ、アーティファクトサイズにおいて、単純なブロードキャストの下でO(n x S x |D|)としてスケールする。
この病理は完全状態再放送の構造的残余であり、マルチエージェント協調の固有の性質ではないと私は主張する。
私はArtifact Coherence System(ACS)を構築し、Token Coherence Theoremを証明します。
論文 参考訳(メタデータ) (2026-03-16T12:20:06Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - LiQSS: Post-Transformer Linear Quantum-Inspired State-Space Tensor Networks for Real-Time 6G [85.58816960936069]
Sixth-Generation (6G) Open Radio Access Networks (O-RAN) における能動的およびエージェント的制御は、厳密なニアタイム(Near-RT)レイテンシと計算制約の下で制御グレードの予測を必要とする。
本稿では,効率的な無線テレメトリ予測のための変圧器後パラダイムについて検討する。
本稿では、自己アテンションを安定な状態空間動的カーネルに置き換える量子インスピレーション付き状態空間テンソルネットワークを提案する。
論文 参考訳(メタデータ) (2026-01-18T12:08:38Z) - Kernelized Sparse Fine-Tuning with Bi-level Parameter Competition for Vision Models [80.50996301430108]
スパースチューニングは、下流タスクに最も関係のある重みだけを調整することで、顕著なパフォーマンスを達成する。
上述の制限を克服する一段法SNELLAを提案する。
SNELLAは低メモリ使用量でSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T03:39:18Z) - POME: Post Optimization Model Edit via Muon-style Projection [74.73326657229347]
POME(Post-Optimization Model Edit)は、微調整された大規模言語モデルの性能を向上させる。
デルタW$のミューオン式のプロジェクションを使い、微調整された重量と事前訓練された重量の違いを区別する。
単純な後処理ステップとして、POMEはトレーニングパイプラインから完全に分離される。
論文 参考訳(メタデータ) (2025-10-08T04:20:11Z) - Synthetic Data RL: Task Definition Is All You Need [27.637296092731322]
強化学習(Reinforcement Learning, RL)は、基礎モデルを専門的なタスクに適応させる強力な方法であるが、大規模な人間ラベルデータに依存しているため、広く採用が制限される。
本稿では,タスク定義から生成された合成データのみを用いて微細構造モデルを補強する,シンプルで汎用的なフレームワークであるSynthetic Data RLを紹介する。
提案手法はまず,タスク定義と検索された文書から質問と回答のペアを生成し,モデルの可解性に基づいて質問の難易度に適応し,RL学習用サンプルの平均通過率を用いて質問を選択する。
論文 参考訳(メタデータ) (2025-05-18T05:35:13Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Layer-Adaptive State Pruning for Deep State Space Models [1.5749416770494706]
SSMのための構造化プルーニング法、Layer-Adaptive STate pruning (LAST) を提供する。
最後のスコアはサブシステムの$mathcalH_infty$ノルムと層次エネルギー正規化を用いて評価される。
平均的な33%の州は、再学習せずに、0.52%の精度で性能を保ち、マルチインプットのマルチアウトプットSSMでは精度が低下することを示した。
論文 参考訳(メタデータ) (2024-11-05T05:50:51Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。