論文の概要: Bridging the Gap between Decision and Logits in Decision-based Knowledge
Distillation for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2306.08909v1
- Date: Thu, 15 Jun 2023 07:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:15:10.197568
- Title: Bridging the Gap between Decision and Logits in Decision-based Knowledge
Distillation for Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルにおける決定に基づく知識蒸留における判断と論理のギャップを埋める
- Authors: Qinhong Zhou, Zonghan Yang, Peng Li, Yang Liu
- Abstract要約: 決定分布からロジットを推定する新しい手法を提案する。
本手法は,自然言語理解と機械読解データセットの両面において,強いベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 16.115386424278213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional knowledge distillation (KD) methods require access to the
internal information of teachers, e.g., logits. However, such information may
not always be accessible for large pre-trained language models (PLMs). In this
work, we focus on decision-based KD for PLMs, where only teacher decisions
(i.e., top-1 labels) are accessible. Considering the information gap between
logits and decisions, we propose a novel method to estimate logits from the
decision distributions. Specifically, decision distributions can be both
derived as a function of logits theoretically and estimated with test-time data
augmentation empirically. By combining the theoretical and empirical
estimations of the decision distributions together, the estimation of logits
can be successfully reduced to a simple root-finding problem. Extensive
experiments show that our method significantly outperforms strong baselines on
both natural language understanding and machine reading comprehension datasets.
- Abstract(参考訳): 従来の知識蒸留法(KD)は、教師の内部情報へのアクセスを必要とする。
しかし、そのような情報は大きな事前訓練された言語モデル(PLM)には必ずしもアクセスできない。
本研究では, PLMのための意思決定に基づくKDに着目し, 教師による意思決定(トップ1ラベル)のみにアクセスできるようにする。
本稿では,ロジットと意思決定の間の情報ギャップを考慮し,ロジットを決定分布から推定する方法を提案する。
具体的には、決定分布は理論的にロジットの関数として導出することができ、試験時間データ拡張を経験的に推定することができる。
決定分布の理論的および経験的推定を組み合わせることで、ロジットの推定を簡単な根のフィニング問題に還元することができる。
大規模な実験により,本手法は自然言語理解と機械読解データセットの両方において,強いベースラインを著しく上回ることがわかった。
関連論文リスト
- Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Optimal Decision Diagrams for Classification [68.72078059880018]
数学的プログラミングの観点から最適決定図の学習について検討する。
本稿では,新しい混合整数線形プログラミングモデルを提案する。
このモデルは、公正性、同義性、安定性の概念に対してどのように容易に拡張できるかを示す。
論文 参考訳(メタデータ) (2022-05-28T18:31:23Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - Learning from Matured Dumb Teacher for Fine Generalization [0.6079137591620588]
ランダムで、訓練されていない、均等に構成された教師ネットワークは、一般化性能を大幅に向上させることができることを示す。
そこで我々は,学習者の一般化仮説を,学習情報の大量破壊を伴わずに保守的に伝達する,成熟した愚かな教師に基づくKDを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:37:36Z) - Robust Generalization despite Distribution Shift via Minimum
Discriminating Information [46.164498176119665]
我々は、トレーニングデータに加えて、シフトしたテスト分布に関する部分的な構造的知識を持つモデリングフレームワークを導入する。
我々は、利用可能な事前知識を埋め込むために、最小限の識別情報の原則を用いる。
未知のシフト分布に関する明示的な一般化境界を得る。
論文 参考訳(メタデータ) (2021-06-08T15:25:35Z) - Perturbation Theory for the Information Bottleneck [6.117084972237769]
情報ボトルネック (IB) は、データから関連情報を抽出する手法である。
IB問題の非線形性は、一般に計算コストが高く解析的に難解である。
IB法に対する摂動理論を導出し,学習開始の完全な特徴を報告した。
論文 参考訳(メタデータ) (2021-05-28T16:59:01Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [89.01584399789951]
歴史的専門家の意思決定を豊富な情報源として利用することを検討します。
観察されたラベルだけで学習する制限を緩和するために活用できることを示しています。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - How fair can we go in machine learning? Assessing the boundaries of
fairness in decision trees [0.12891210250935145]
本稿では,バイアス緩和介入の統計的限界を探索するための最初の方法論を提案する。
機械学習において広く受け入れられている決定木分類器に焦点をあてる。
本手法は, 分類誤差の少ない精度で, 決定木モデルの最適化が可能であることを実験的に結論付けた。
論文 参考訳(メタデータ) (2020-06-22T16:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。