論文の概要: Learning to Reason: Temporal Saliency Distillation for Interpretable Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2601.04263v1
- Date: Wed, 07 Jan 2026 07:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.838773
- Title: Learning to Reason: Temporal Saliency Distillation for Interpretable Knowledge Transfer
- Title(参考訳): 推論への学習:解釈可能な知識伝達のための時間的塩分蒸留
- Authors: Nilushika Udayangani Hewa Dehigahawattage, Kishor Nandakishor, Marimuthu Palaniswami,
- Abstract要約: 知識蒸留は、教師と呼ばれるより大きなネットワークから学生と呼ばれるより小さなネットワークに知識を伝達することで、モデル圧縮に有効であることが証明されている。
時系列における現在の知識蒸留は、主に、もともとコンピュータビジョンタスクのために開発されたロジットと特徴整合技術に基づいている。
本稿では,教師の正しい推論だけでなく,教師の正しい推論を伝達するために,従来のロジット伝達を拡張して解釈可能な知識の伝達を提案する。
- 参考スコア(独自算出の注目度): 2.8218955000848287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has proven effective for model compression by transferring knowledge from a larger network called the teacher to a smaller network called the student. Current knowledge distillation in time series is predominantly based on logit and feature aligning techniques originally developed for computer vision tasks. These methods do not explicitly account for temporal data and fall short in two key aspects. First, the mechanisms by which the transferred knowledge helps the student model learning process remain unclear due to uninterpretability of logits and features. Second, these methods transfer only limited knowledge, primarily replicating the teacher predictive accuracy. As a result, student models often produce predictive distributions that differ significantly from those of their teachers, hindering their safe substitution for teacher models. In this work, we propose transferring interpretable knowledge by extending conventional logit transfer to convey not just the right prediction but also the right reasoning of the teacher. Specifically, we induce other useful knowledge from the teacher logits termed temporal saliency which captures the importance of each input timestep to the teacher prediction. By training the student with Temporal Saliency Distillation we encourage it to make predictions based on the same input features as the teacher. Temporal Saliency Distillation requires no additional parameters or architecture specific assumptions. We demonstrate that Temporal Saliency Distillation effectively improves the performance of baseline methods while also achieving desirable properties beyond predictive accuracy. We hope our work establishes a new paradigm for interpretable knowledge distillation in time series analysis.
- Abstract(参考訳): 知識蒸留は、教師と呼ばれるより大きなネットワークから学生と呼ばれるより小さなネットワークに知識を伝達することで、モデル圧縮に有効であることが証明されている。
時系列における現在の知識蒸留は、主に、もともとコンピュータビジョンタスクのために開発されたロジットと特徴整合技術に基づいている。
これらの手法は、時間的データを明確に説明せず、2つの重要な側面で不足する。
第一に、移動知識が学生モデル学習プロセスに役立っているメカニズムは、ロジットや特徴の解釈不能のため、いまだに不明である。
第二に、これらの手法は限られた知識のみを伝達し、主に教師の予測精度を複製する。
その結果、学生モデルは教師のモデルと大きく異なる予測的分布を生み出すことが多く、教師モデルの安全な置換を妨げている。
本研究では,教師の正しい推論だけでなく,教師の正しい推論を伝達するために,従来のロジット伝達を拡張して解釈可能な知識の伝達を提案する。
具体的には、教師の予測に対する各入力時間ステップの重要性を捉えた時間的正当性(temporal saliency)と呼ばれる授業ログから、他の有用な知識を誘導する。
時間的塩分蒸留で学生を訓練することで,教師と同じ入力特徴に基づいて予測を行うことを奨励する。
時間的塩分蒸留は追加のパラメータやアーキテクチャ固有の仮定を必要としない。
本研究では, 経時的塩分蒸留は, 予測精度以上の望ましい特性を達成しつつ, ベースライン法の性能を効果的に向上することを示した。
我々は,時系列分析における知識蒸留の新しいパラダイムを確立することを願っている。
関連論文リスト
- Teacher Agent: A Knowledge Distillation-Free Framework for
Rehearsal-based Video Incremental Learning [29.52218286906986]
リハーサルベースのビデオインクリメンタル学習は、しばしば知識蒸留を用いて、以前に学習したデータの破滅的な忘れを軽減している。
テキスト教師エージェントと呼ばれるリハーサルベースのビデオインクリメンタル学習のための知識蒸留自由フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:54:56Z) - Random Teachers are Good Teachers [19.74244993871716]
自己蒸留における教師-学生の学習力学によって引き起こされる暗黙の正規化について検討する。
このような無作為な教師に学生を蒸留する際には,その教師に対して高い精度で蒸留した生徒の強い改善を観察する。
論文 参考訳(メタデータ) (2023-02-23T15:26:08Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。