論文の概要: Instruction Tuning Changes How Upstream State Conditions Late Readout: A Cross-Patching Diagnostic
- arxiv url: http://arxiv.org/abs/2605.07284v1
- Date: Fri, 08 May 2026 05:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.83456
- Title: Instruction Tuning Changes How Upstream State Conditions Late Readout: A Cross-Patching Diagnostic
- Title(参考訳): インストラクションチューニングは、上流状態の読み出しの遅れ方を変える:クロスパッチ診断
- Authors: Yifan Zhou,
- Abstract要約: 我々は、いつから後期のスタックが協力して、相違点を次の利幅に変えるのかを尋ねる。
私たちは、各モデルの後期スタックで、各モデルの初期段階の状態を横断します。
強制的なスコアリングは、局所的なトークンの選択が、後の正確な回答の成功を変える可能性があることを示している。
- 参考スコア(独自算出の注目度): 9.8812664524155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent interpretability work has identified model-internal handles on post-trained behavior, including refusal directions, assistant/persona axes, and sparse chat-tuning features. These results localize where behaviors can be read out or controlled, often in middle-to-late layers. We ask how earlier computation and the late stack cooperate to turn those differences into next-token margins. To test this, we introduce first-divergence cross-patching: at the first token where pretrained base (PT) and instruction-tuned (IT) checkpoints disagree, we cross each model's earlier-layer state with each model's late stack. The diagnostic separates training recipes: same-base instruction-following descendants show late effects that depend on their own earlier-layer state, while OpenMath2 math-domain SFT and controlled code/biomed CPT controls with verified domain learning do not; for OpenMath2, the late effect is already largely portable from base earlier-layer state. Across five dense families (4B-32B), the IT late stack adds +0.76 logits from PT upstream and +2.44 from IT upstream, giving a +1.68 interaction that is positive in every family. Thus the late stack has a real PT-upstream effect, but its larger effect in the IT checkpoint appears only when it reads its own post-trained upstream state. Sparse features in final MLP layers partially mediate the effect and are driven by upstream patches, supporting a handoff from earlier state to final-layer feature activation to IT-token margin. Forced-token scoring shows that the local token choice can change later exact-answer success. Operationally, paired-checkpoint studies that localize a difference to late layers should test whether it survives under the other checkpoint's upstream state before treating the late stack as self-contained.
- Abstract(参考訳): 最近の解釈可能性研究は、拒絶方向、アシスタント/ペルソナ軸、スパースチャットチューニング機能など、訓練後の行動に関するモデル内部ハンドルを特定している。
これらの結果は、振る舞いの読み出しや制御が可能な場所をローカライズします。
我々は、より早い計算と遅延スタックが、これらの差を次の利幅に変換するためにどのように協力するかを尋ねる。
そこで本研究では,事前学習ベース (PT) と命令調整チェックポイント (IT) が一致しない最初のトークンにおいて,各モデルの早期階層状態を各モデルの後期スタックと交差させる。
また、OpenMath2の数学ドメインSFTと、認証済みのドメイン学習を伴う制御コード/バイオメトリCPTコントロールは、そうではない。
5つの高密度なファミリー(4B-32B)にまたがって、IT遅延スタックはPT上流から+0.76ロジット、IT上流から+2.44ロジットを追加し、すべてのファミリーで正の+1.68相互作用を与える。
したがって、遅延スタックは真のPTアップストリーム効果を持つが、ITチェックポイントにおけるその大きな効果は、トレーニング後のアップストリーム状態を読み込むときにのみ現れる。
最終MLP層のスパース機能は部分的に効果を仲介し、アップストリームパッチによって駆動される。
強制的なスコアリングは、局所的なトークンの選択が、後の正確な回答の成功を変える可能性があることを示している。
運用上、後期層への差分をローカライズするペアチェックポイントの研究は、後期スタックを自己完結として扱う前に、他のチェックポイントの上流状態下で生存するかどうかをテストする必要がある。
関連論文リスト
- The Convergence Gap: Instruction-Tuned Language Models Stabilize Later in the Forward Pass [9.8812664524155]
最終的なアウトプットは、チェックポイントがその次のポイント予測にコミットしたときに隠される。
本稿では,各層の次点分布をデコードし,モデルの最終分布までの距離を測定するモデル微分診断法である収束ギャップを導入する。
論文 参考訳(メタデータ) (2026-05-08T05:45:52Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Learning effective pruning at initialization from iterative pruning [15.842658282636876]
本稿では、トレーニングコストを削減するために、エンドツーエンドのニューラルネットワークに基づくPaI手法を提案する。
提案手法は, 既存手法よりも高スパース性設定で優れる。
ニューラルネットワークを用いた最初のPaI手法として、このアプローチに影響を与える要因を検証するために広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-27T03:17:52Z) - Dual-Path Adversarial Lifting for Domain Shift Correction in Online Test-time Adaptation [59.18151483767509]
テスト時間適応におけるドメインシフト補正のためのデュアルパストークンリフトを導入する。
次に、インターリーブされたトークン予測とドメインシフトトークンのパスとクラストークンのパスの間の更新を行う。
評価実験の結果,提案手法はオンライン完全テスト時間領域適応性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-08-26T02:33:47Z) - LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding [13.747101397628887]
大規模言語モデル(LLM)の高速化のためのエンドツーエンドのソリューションを提案する。
また,すべての変圧器層が同じ出口を共有できる早期の出口損失を,早期の層で低落率,後期の層で高落率,早期の出口損失に適用した。
このトレーニングレシピは、モデルに補助的なレイヤやモジュールを追加することなく、初期のレイヤでの早期退避の精度を高めることを示す。
論文 参考訳(メタデータ) (2024-04-25T16:20:23Z) - Less Peaky and More Accurate CTC Forced Alignment by Label Priors [57.48450905027108]
接続性時間分類(CTC)モデルはピーク出力分布を持つことが知られている。
本稿では, CTCのピーク動作を緩和し, 強制アライメント生成への適合性を向上させることを目的とする。
我々のCTCモデルはピーク後部を減らし、トークンのオフセットをより正確に予測することができる。
論文 参考訳(メタデータ) (2024-04-22T17:40:08Z) - Test-Time Domain Adaptation by Learning Domain-Aware Batch Normalization [39.14048972373775]
テストタイムドメイン適応は、ソースドメインでトレーニングされたモデルを、ラベルのないいくつかのイメージを使用して、未表示のターゲットドメインに適応することを目的としている。
従来の作業は通常、ラベルとドメイン間の知識を明示的に分離することなく、ネットワーク全体をナビゲート的に更新する。
本稿では,BN層のみを操作することにより,そのような学習の干渉を低減し,ドメイン知識の学習を高めることを提案する。
論文 参考訳(メタデータ) (2023-12-15T19:22:21Z) - REGTR: End-to-end Point Cloud Correspondences with Transformers [79.52112840465558]
我々は、注意機構が明示的な特徴マッチングとRANSACの役割を置き換えることができると推測する。
本稿では,最終文集合を直接予測するエンドツーエンドフレームワークを提案する。
提案手法は3DMatchおよびModelNetベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T06:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。