論文の概要: Reasoning Stabilization Point: A Training-Time Signal for Stable Evidence and Shortcut Reliance
- arxiv url: http://arxiv.org/abs/2601.11625v1
- Date: Mon, 12 Jan 2026 17:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.217581
- Title: Reasoning Stabilization Point: A Training-Time Signal for Stable Evidence and Shortcut Reliance
- Title(参考訳): Reasoning Stabilization Point:Stable EvidenceとShortcut Relianceのための訓練時間信号
- Authors: Sahil Rajesh Dhayalkar,
- Abstract要約: 我々は、固定されたプローブ集合上の正規化トークン属性におけるエポック・ツー・エポックな変化として説明ドリフトを定義する。
RSPは内部のドリフトダイナミクスから計算され、アウト・オブ・ディストリビューションデータのチューニングは不要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pretrained language models can improve task performance while subtly altering the evidence a model relies on. We propose a training-time interpretability view that tracks token-level attributions across finetuning epochs. We define explanation driftas the epoch-to-epoch change in normalized token attributions on a fixed probe set, and introduce the Reasoning Stabilization Point(RSP), the earliest epoch after which drift remains consistently low. RSP is computed from within-run drift dynamics and requires no tuning on out-of-distribution data. Across multiple lightweight transformer classifiers and benchmark classification tasks, drift typically collapses into a low, stable regime early in training, while validation accuracy continues to change only marginally. In a controlled shortcut setting with label-correlated trigger tokens, attribution dynamics expose increasing reliance on the shortcut even when validation accuracy remains competitive. Overall, explanation drift provides a simple, low-cost diagnostic for monitoring how decision evidence evolves during fine-tuning and for selecting checkpoints in a stable-evidence regime.
- Abstract(参考訳): 微調整された事前訓練された言語モデルは、モデルが依存するエビデンスを微調整しながら、タスクパフォーマンスを改善することができる。
本稿では,微調整エポック間のトークンレベルの属性をトラックする学習時間解釈可能性ビューを提案する。
我々は、固定されたプローブ集合上での正規化トークン属性のエポック・ツー・エポックな変化をドリフトと定義し、それに続く最初期のエポックであるReasoning Stabilization Point(RSP)を導入する。
RSPは内部のドリフトダイナミクスから計算され、アウト・オブ・ディストリビューションデータのチューニングは不要である。
複数の軽量トランスフォーマー分類器とベンチマーク分類タスクにまたがって、ドリフトは通常訓練の初期段階で低い安定した状態に崩壊し、検証精度はわずかに変化し続ける。
ラベル関連トリガトークンによる制御されたショートカット設定では、アトリビューションダイナミクスは、検証精度が競争力を維持したままでも、ショートカットへの依存を増大させる。
全体として、説明ドリフトは、微調整中に意思決定の証拠がどのように進化するかを監視し、安定した証拠体制でチェックポイントを選択するための、シンプルで低コストな診断を提供する。
関連論文リスト
- SteeringTTA: Guiding Diffusion Trajectories for Robust Test-Time-Adaptation [10.159672026403097]
テスト時間適応(TTA)は、未ラベルのテストデータを用いてモデルや入力を更新することにより、分散シフト下でのディープモデルの性能劣化を補正することを目的としている。
本稿では,Fynman-Kac ステアリングを応用し,擬似ラベルによる報酬付き分類のための拡散型入力適応を導出する推論専用フレームワークである SteeringTTA を提案する。
論文 参考訳(メタデータ) (2025-10-16T12:46:53Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Technical note on Sequential Test-Time Adaptation via Martingale-Driven Fisher Prompting [3.5808917363708743]
M-FISHERは、ストリーミングデータにおける逐次分布シフト検出と安定した適応のための方法である。
検出のために、非整合性スコアから指数的マーチンゲールを構築し、Villeの不等式を適用し、偽アラーム制御の時間一様保証を得る。
適応のために、フィッシャー条件によるプロンプトパラメータの更新は、分布多様体上の自然な勾配降下を実装していることを示す。
論文 参考訳(メタデータ) (2025-10-04T15:31:26Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - Generalized Robust Test-Time Adaptation in Continuous Dynamic Scenarios [18.527640606971563]
テスト時間適応(TTA)は、未ラベルのテストデータストリームのみを使用する推論フェーズにおいて、事前訓練されたモデルに分散をテストする。
本稿では,問題に効果的に対応する汎用ロバストテスト時間適応(GRoTTA)法を提案する。
論文 参考訳(メタデータ) (2023-10-07T07:13:49Z) - Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection [3.884530687475798]
BERTをベースとしたシーケンスタギングモデルは,リアルタイムに分散を検出することができる。
モデルは、インクリメンタルな拡散検出に関する最近の研究と比較して、最先端のレイテンシと安定性のスコアを得る。
論文 参考訳(メタデータ) (2022-05-02T02:13:24Z) - StableEmit: Selection Probability Discount for Reducing Emission Latency
of Streaming Monotonic Attention ASR [46.69852287267763]
我々は,MoChAが早期にトークンを発行することを奨励するために,単純なアライメントフリーの正規化手法であるStableEmitを提案する。
以上の結果から,StableEmitは認識誤差と発光遅延を同時に低減することがわかった。
論文 参考訳(メタデータ) (2021-07-01T17:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。