論文の概要: Bridging the Gap between Decision and Logits in Decision-based Knowledge
Distillation for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2306.08909v1
- Date: Thu, 15 Jun 2023 07:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:15:10.197568
- Title: Bridging the Gap between Decision and Logits in Decision-based Knowledge
Distillation for Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルにおける決定に基づく知識蒸留における判断と論理のギャップを埋める
- Authors: Qinhong Zhou, Zonghan Yang, Peng Li, Yang Liu
- Abstract要約: 決定分布からロジットを推定する新しい手法を提案する。
本手法は,自然言語理解と機械読解データセットの両面において,強いベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 16.115386424278213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional knowledge distillation (KD) methods require access to the
internal information of teachers, e.g., logits. However, such information may
not always be accessible for large pre-trained language models (PLMs). In this
work, we focus on decision-based KD for PLMs, where only teacher decisions
(i.e., top-1 labels) are accessible. Considering the information gap between
logits and decisions, we propose a novel method to estimate logits from the
decision distributions. Specifically, decision distributions can be both
derived as a function of logits theoretically and estimated with test-time data
augmentation empirically. By combining the theoretical and empirical
estimations of the decision distributions together, the estimation of logits
can be successfully reduced to a simple root-finding problem. Extensive
experiments show that our method significantly outperforms strong baselines on
both natural language understanding and machine reading comprehension datasets.
- Abstract(参考訳): 従来の知識蒸留法(KD)は、教師の内部情報へのアクセスを必要とする。
しかし、そのような情報は大きな事前訓練された言語モデル(PLM)には必ずしもアクセスできない。
本研究では, PLMのための意思決定に基づくKDに着目し, 教師による意思決定(トップ1ラベル)のみにアクセスできるようにする。
本稿では,ロジットと意思決定の間の情報ギャップを考慮し,ロジットを決定分布から推定する方法を提案する。
具体的には、決定分布は理論的にロジットの関数として導出することができ、試験時間データ拡張を経験的に推定することができる。
決定分布の理論的および経験的推定を組み合わせることで、ロジットの推定を簡単な根のフィニング問題に還元することができる。
大規模な実験により,本手法は自然言語理解と機械読解データセットの両方において,強いベースラインを著しく上回ることがわかった。
関連論文リスト
- Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning [73.77288647011295]
本稿では,BI-Directional Deliberation Reasoning (BIDDER)を導入し,言語モデルの意思決定合理性を高める。
私たちのアプローチには3つの重要なプロセスがあります。
歴史的データから、意思決定過程における不確実な情報を表すために隠された国家を推定すること。
隠れた状態を使って将来の潜在的な状態と潜在的な結果を予測する。
歴史的情報(過去コンテキスト)と長期的結果(未来コンテキスト)を統合することで、推論を知らせる。
論文 参考訳(メタデータ) (2024-07-08T16:48:48Z) - Neural Probabilistic Logic Learning for Knowledge Graph Reasoning [10.473897846826956]
本稿では,知識グラフの正確な推論を実現するための推論フレームワークを設計することを目的とする。
本稿では,組込みネットワークの表現力を効果的に向上するスコアリングモジュールを提案する。
我々は,変分推論に基づくマルコフ論理ネットワークを組み込むことにより,モデルの解釈可能性を向上させる。
論文 参考訳(メタデータ) (2024-07-04T07:45:46Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - Learning from Matured Dumb Teacher for Fine Generalization [0.6079137591620588]
ランダムで、訓練されていない、均等に構成された教師ネットワークは、一般化性能を大幅に向上させることができることを示す。
そこで我々は,学習者の一般化仮説を,学習情報の大量破壊を伴わずに保守的に伝達する,成熟した愚かな教師に基づくKDを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:37:36Z) - Robust Generalization despite Distribution Shift via Minimum
Discriminating Information [46.164498176119665]
我々は、トレーニングデータに加えて、シフトしたテスト分布に関する部分的な構造的知識を持つモデリングフレームワークを導入する。
我々は、利用可能な事前知識を埋め込むために、最小限の識別情報の原則を用いる。
未知のシフト分布に関する明示的な一般化境界を得る。
論文 参考訳(メタデータ) (2021-06-08T15:25:35Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - How fair can we go in machine learning? Assessing the boundaries of
fairness in decision trees [0.12891210250935145]
本稿では,バイアス緩和介入の統計的限界を探索するための最初の方法論を提案する。
機械学習において広く受け入れられている決定木分類器に焦点をあてる。
本手法は, 分類誤差の少ない精度で, 決定木モデルの最適化が可能であることを実験的に結論付けた。
論文 参考訳(メタデータ) (2020-06-22T16:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。