論文の概要: Can We Use Probing to Better Understand Fine-tuning and Knowledge
Distillation of the BERT NLU?
- arxiv url: http://arxiv.org/abs/2301.11688v1
- Date: Fri, 27 Jan 2023 12:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 15:47:03.250273
- Title: Can We Use Probing to Better Understand Fine-tuning and Knowledge
Distillation of the BERT NLU?
- Title(参考訳): BERT NLUの微調整・知識蒸留の精度向上にプローブが有効か?
- Authors: Jakub Ho\'sci{\l}owicz, Marcin Sowa\'nski, Piotr Czubowski, Artur
Janicki
- Abstract要約: BERTに基づく自然言語理解モデルの微調整および知識蒸留時に発生する現象について検討する。
私たちの究極の目的は、実践的な生産問題の理解を深めることでした。
- 参考スコア(独自算出の注目度): 0.5735035463793007
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this article, we use probing to investigate phenomena that occur during
fine-tuning and knowledge distillation of a BERT-based natural language
understanding (NLU) model. Our ultimate purpose was to use probing to better
understand practical production problems and consequently to build better NLU
models. We designed experiments to see how fine-tuning changes the linguistic
capabilities of BERT, what the optimal size of the fine-tuning dataset is, and
what amount of information is contained in a distilled NLU based on a tiny
Transformer. The results of the experiments show that the probing paradigm in
its current form is not well suited to answer such questions. Structural, Edge
and Conditional probes do not take into account how easy it is to decode probed
information. Consequently, we conclude that quantification of information
decodability is critical for many practical applications of the probing
paradigm.
- Abstract(参考訳): 本稿では,BERTをベースとした自然言語理解モデル(NLU)の微調整および知識蒸留時に発生する現象の探索を行う。
我々の最終的な目的は、実用的な生産問題をよりよく理解し、より良いNLUモデルを構築することであった。
我々は、微細チューニングがBERTの言語能力をどのように変化させるか、微調整データセットの最適なサイズと、小さなトランスフォーマーに基づいて蒸留したNLUに含まれる情報の量を測定する実験を設計した。
実験の結果、現在の形式の探索パラダイムはそのような疑問に答えるには適していないことが示された。
構造的、エッジ的、条件的プローブは、調査された情報の復号化がいかに容易かを考慮していない。
その結果,情報デコダラビリティの定量化は探索パラダイムの多くの実用的応用に不可欠であることがわかった。
関連論文リスト
- Domain Knowledge Injection in Bayesian Search for New Materials [0.0]
探索空間における探索を調整するためのドメイン知識に対応するベイズ最適化(BO)アルゴリズムであるDKIBOを提案する。
材料設計タスクにおいて,ドメイン知識をうまく注入することで,提案手法の実用性を実証的に実証する。
論文 参考訳(メタデータ) (2023-11-26T01:55:55Z) - R-Tuning: Teaching Large Language Models to Refuse Unknown Questions [68.60002086172133]
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
このアプローチは、まずパラメトリック知識と命令チューニングデータの間の知識ギャップを識別することによって定式化される。
実験により、この新しい命令チューニングアプローチは、既知の質問に答えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Disentangled Representation Learning with Transmitted Information
Bottleneck [73.0553263960709]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - Explainable and Accurate Natural Language Understanding for Voice
Assistants and Beyond [42.656751634420914]
我々は、完全関節型NLUモデルを、粒度レベルで本質的に「説明可能」に変換する。
完全関節型NLUモデルの説明を可能にするため、他の一般的な分類タスクにおいて、この拡張をうまく利用できることが示される。
論文 参考訳(メタデータ) (2023-09-25T19:30:44Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Eeny, meeny, miny, moe. How to choose data for morphological inflection [8.914777617216862]
本稿では,トランスフォーマーモデルを用いた形態的インフレクション作業のための4つのサンプリング戦略について検討する。
そこで本研究では,30言語にまたがる戦略の頑健さについて検討する。
この結果から,モデル信頼度とエントロピーに基づくデータ選択のメリットが明らかとなった。
論文 参考訳(メタデータ) (2022-10-26T04:33:18Z) - No More Fine-Tuning? An Experimental Evaluation of Prompt Tuning in Code
Intelligence [33.438384268490815]
本稿では,コードインテリジェンスタスクにおける即時チューニングの使用と効果を実証的に評価する。
本結果から,3つのタスクの微調整性能は,逐次チューニングが連続的に向上していることが示唆された。
我々の結果は、微調整の代わりに、コードインテリジェンスタスクの迅速なチューニングに適応して、より良いパフォーマンスを実現することができることを示唆している。
論文 参考訳(メタデータ) (2022-07-24T07:29:17Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - $\partial$-Explainer: Abductive Natural Language Inference via
Differentiable Convex Optimization [2.624902795082451]
本稿では,Deep Neural Networkの一部として制約付き最適化をキャストすることにより,両世界の長所を組み合わせた$partial$-Explainer(Diff-Explainer)という新しいフレームワークを提案する。
我々の実験は、その推論をサポートするための説明を提供しながら、非微分型解法よりも約10%高い改善率を示しました。
論文 参考訳(メタデータ) (2021-05-07T17:49:19Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。