論文の概要: Procedural-skill SFT across capacity tiers: A W-Shaped pre-SFT Trajectory and Regime-Asymmetric Mechanism on 0.8B-4B Qwen3.5 Models
- arxiv url: http://arxiv.org/abs/2605.11907v2
- Date: Wed, 13 May 2026 22:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.895065
- Title: Procedural-skill SFT across capacity tiers: A W-Shaped pre-SFT Trajectory and Regime-Asymmetric Mechanism on 0.8B-4B Qwen3.5 Models
- Title(参考訳): 容量層を越えた手続き型SFT: 0.8B-4B Qwen3.5モデルにおけるW字型プレSFT軌道とレジーム非対称機構
- Authors: Igor Strozzi,
- Abstract要約: 我々は3つのQwen3.5高密度スケールにおける手続きスキルSFTの寄与を測定した。
SFT対応のプロシージャ$$リフトは、大まかに一様である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We measure procedural-skill SFT contribution across three Qwen3.5 dense scales (0.8B, 2B, 4B) on a 200-task / 40-skill holdout, with Claude Haiku 4.5 as a frontier reference. The corpus is 353 rows of (task + procedural-skill block, Opus chain-of-thought, judge-pass) demonstrations. Main finding. Under matched-path LLM-only scoring, the SFT-attributable procedural-$Δ$ lift is roughly uniform across sizes: $+0.070 / +0.040 / +0.075$ at 0.8B / 2B / 4B. Variation in post-SFT $Δ$ ($-0.005$, $+0.100$, $+0.065$) is dominated by a W-shaped pre-SFT base trajectory ($-0.075$, $+0.060$, $-0.010$, Haiku-4-5 at $+0.030$): the 5-step procedure hurts 0.8B and 4B, helps 2B, and helps frontier Haiku modestly. SFT works hardest in absolute terms where the base struggles with the procedure -- a regime-asymmetric pattern with a falsifiable prediction at 8B/14B. Methodology. (i) A bench format-compliance artifact: 83.5% of the holdout uses a deterministic ANSWER-line extractor that under-counts free-form-prose conclusions; our LLM-only re-judge reveals it was systematically biased against the curated condition. (ii) A negative-iteration sequence at 0.8B: three well-formed recipe variants cluster post-SFT curated pass-rate within a 2 pp band, constraining the absolute-pass-rate ceiling to base capacity rather than recipe. Cross-family judge validation. GPT-5.4 via OpenRouter on all 7 configurations (2800 paired episodes) agrees on the direction of every per-student finding: Cohen's $κ\geq 0.754$, agreement $\geq 93.25\%$, max headline $Δ$ shift $\leq 0.035$ pp. Two earlier framings -- "format-only learning at 0.8B" and "SFT contribution shrinks at 4B" -- were path-mismatch artifacts; this paper supersedes both. Single-seed evaluation; threats itemised in the paper.
- Abstract(参考訳): 我々は,200タスク/40スキルホールドアウトにおいて,Qwen3.5高密度スケール(0.8B,2B,4B)にまたがるプロシージャスキルSFTの寄与を測定し,Claude Haiku 4.5をフロンティア基準とした。
コーパスは353行(task + procedural-skill block, Opus chain-of-thinkt, judge-pass)のデモである。
主な発見。
マッチングパス LLM のみのスコアでは、SFT 属性の Procedural-$$$ lift は、大まかに一様である:$+0.070 / +0.040 / +0.075$ at 0.8B / 2B / 4B である。
SFT後の$Δ$$-0.005$, $+0.100$, $+0.065$の変動は、W字型のプレSFTのベーストラジェクトリ(-0.075$, $+0.060$, $-0.010$, $-0.030$): 5ステップの手順は0.8Bと4Bを損傷し、2Bを補助し、フロンティアのHaikuを助ける。
SFTは、ベースがプロシージャと苦労する絶対的な条件において最も難しい。
方法論。
i) ベンチ形式準拠のアーティファクト:83.5%は,自由形式の結論を下記した決定論的ANSWER線抽出器を用いており, LLMのみの再審査の結果, 治療条件に対して体系的に偏りがあることが判明した。
(II) 0.8Bにおける負の反応系列: 3つのよく形成されたレシピ変種は, 2pp帯のパスレートを硬化させ, 絶対パスレート天井をレシピではなくベース容量に制限した。
家庭内審査員。
GPT-5.4 via OpenRouter on all 7 configurations (2800 paired episodes) では、学生毎の発見の方向が一致している: Cohen's $κ\geq 0.754$, agreement $\geq 93.25\%$, max headline $Δ$ shift $\leq 0.035$ pp。
初期の2つのフレーミング - "format-only learning at 0.8B" と "SFT contribution shrinks at 4B" はパスミスマッチのアーティファクトであり、どちらも取って代わるものだ。
シングルシード評価; 論文に記載された脅威。
関連論文リスト
- When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon [0.0]
KVキャッシュ量子化は、品質-レイテンシトレードオフとしてフレーム化される。
Apple Siliconの統一メモリにインセンティブを与えています。
論文 参考訳(メタデータ) (2026-05-07T05:44:39Z) - Scaling Federated Linear Contextual Bandits via Sketching [49.12000877146222]
本稿では,FSCLB(Federated Sketch Contextual Linear Bandits)を提案する。
合成と実世界の両方のデータセットの実験では、FSCLBは計算と通信のコストを90%以上削減している。
論文 参考訳(メタデータ) (2026-05-01T08:22:06Z) - Borrowed Geometry: Computational Reuse of Frozen Text-Pretrained Transformer Weights Across Modalities [0.0]
Gemma 4 31B はテキストトークンのみに事前訓練され、修正されていない、モダリティ境界を越えて転送される。
Gemma 4 31Bは2026年4月現在、小規模なフロンティアで唯一のモデルである。
論文 参考訳(メタデータ) (2026-05-01T01:23:37Z) - Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs [0.0]
サイコファンの報酬信号が校正を低下させるかどうかを検討する。
3つのモデルに適用されるポストホック行列スケーリングは、ECEを40$--64%$で削減し、精度を1.5$--$$パーセンテージポイントで改善する。
これらの知見は、報酬ハッキングの校正効果を評価する方法論を確立し、校正対応訓練の目的を動機づけるものである。
論文 参考訳(メタデータ) (2026-04-12T11:09:49Z) - Topological Characterization of Churn Flow and Unsupervised Correction to the Wu Flow-Regime Map in Small-Diameter Vertical Pipes [0.0]
特徴曲面(ECS)を用いた最初のトポロジに基づく特徴評価手法を提案する。
この研究はチャーンフローの最初の数学的定義を提供し、教師なしトポロジカル記述子は機械学的なモデルに挑戦し修正できることを示した。
論文 参考訳(メタデータ) (2026-04-07T17:59:15Z) - Numerical Fragility in Transformers: A Layer-wise Theory for Explaining, Forecasting, and Mitigating Instability [0.0]
エラーがいつどこで発生するかを予測する一階のモジュールワイズ理論を提示する。
自己注意のために、3つの解釈可能な診断に分解する層間境界を導出する。
また、精度と幅を意識したLayerNormインジケータ$rho_rm LN$も導入する。
論文 参考訳(メタデータ) (2025-10-17T01:03:02Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。