論文の概要: Can We Use Probing to Better Understand Fine-tuning and Knowledge
Distillation of the BERT NLU?
- arxiv url: http://arxiv.org/abs/2301.11688v1
- Date: Fri, 27 Jan 2023 12:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 15:47:03.250273
- Title: Can We Use Probing to Better Understand Fine-tuning and Knowledge
Distillation of the BERT NLU?
- Title(参考訳): BERT NLUの微調整・知識蒸留の精度向上にプローブが有効か?
- Authors: Jakub Ho\'sci{\l}owicz, Marcin Sowa\'nski, Piotr Czubowski, Artur
Janicki
- Abstract要約: BERTに基づく自然言語理解モデルの微調整および知識蒸留時に発生する現象について検討する。
私たちの究極の目的は、実践的な生産問題の理解を深めることでした。
- 参考スコア(独自算出の注目度): 0.5735035463793007
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this article, we use probing to investigate phenomena that occur during
fine-tuning and knowledge distillation of a BERT-based natural language
understanding (NLU) model. Our ultimate purpose was to use probing to better
understand practical production problems and consequently to build better NLU
models. We designed experiments to see how fine-tuning changes the linguistic
capabilities of BERT, what the optimal size of the fine-tuning dataset is, and
what amount of information is contained in a distilled NLU based on a tiny
Transformer. The results of the experiments show that the probing paradigm in
its current form is not well suited to answer such questions. Structural, Edge
and Conditional probes do not take into account how easy it is to decode probed
information. Consequently, we conclude that quantification of information
decodability is critical for many practical applications of the probing
paradigm.
- Abstract(参考訳): 本稿では,BERTをベースとした自然言語理解モデル(NLU)の微調整および知識蒸留時に発生する現象の探索を行う。
我々の最終的な目的は、実用的な生産問題をよりよく理解し、より良いNLUモデルを構築することであった。
我々は、微細チューニングがBERTの言語能力をどのように変化させるか、微調整データセットの最適なサイズと、小さなトランスフォーマーに基づいて蒸留したNLUに含まれる情報の量を測定する実験を設計した。
実験の結果、現在の形式の探索パラダイムはそのような疑問に答えるには適していないことが示された。
構造的、エッジ的、条件的プローブは、調査された情報の復号化がいかに容易かを考慮していない。
その結果,情報デコダラビリティの定量化は探索パラダイムの多くの実用的応用に不可欠であることがわかった。
関連論文リスト
- Mining the Explainability and Generalization: Fact Verification Based on Self-Instruction [0.7673339435080445]
本稿では,自己指導に基づくファクトチェックのための微調整手法を提案する。
最小スケールのLLaMA-7Bモデルを微調整し、挑戦的な事実チェックデータセットFEVEROUSとHOVERで評価する。
本手法は, 自己指導型学習をファクトチェックに活用し, コントラスト学習とDPOの改善を両立させる。
論文 参考訳(メタデータ) (2024-05-21T08:23:54Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning [20.59775450213501]
本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。
算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
論文 参考訳(メタデータ) (2023-05-23T10:11:56Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Eeny, meeny, miny, moe. How to choose data for morphological inflection [8.914777617216862]
本稿では,トランスフォーマーモデルを用いた形態的インフレクション作業のための4つのサンプリング戦略について検討する。
そこで本研究では,30言語にまたがる戦略の頑健さについて検討する。
この結果から,モデル信頼度とエントロピーに基づくデータ選択のメリットが明らかとなった。
論文 参考訳(メタデータ) (2022-10-26T04:33:18Z) - No More Fine-Tuning? An Experimental Evaluation of Prompt Tuning in Code
Intelligence [33.438384268490815]
本稿では,コードインテリジェンスタスクにおける即時チューニングの使用と効果を実証的に評価する。
本結果から,3つのタスクの微調整性能は,逐次チューニングが連続的に向上していることが示唆された。
我々の結果は、微調整の代わりに、コードインテリジェンスタスクの迅速なチューニングに適応して、より良いパフォーマンスを実現することができることを示唆している。
論文 参考訳(メタデータ) (2022-07-24T07:29:17Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - $\partial$-Explainer: Abductive Natural Language Inference via
Differentiable Convex Optimization [2.624902795082451]
本稿では,Deep Neural Networkの一部として制約付き最適化をキャストすることにより,両世界の長所を組み合わせた$partial$-Explainer(Diff-Explainer)という新しいフレームワークを提案する。
我々の実験は、その推論をサポートするための説明を提供しながら、非微分型解法よりも約10%高い改善率を示しました。
論文 参考訳(メタデータ) (2021-05-07T17:49:19Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。