論文の概要: Superbizarre Is Not Superb: Improving BERT's Interpretations of Complex
Words with Derivational Morphology
- arxiv url: http://arxiv.org/abs/2101.00403v1
- Date: Sat, 2 Jan 2021 08:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 07:18:50.622926
- Title: Superbizarre Is Not Superb: Improving BERT's Interpretations of Complex
Words with Derivational Morphology
- Title(参考訳): スーパービザレは最高ではない: 派生形態を持つ複雑な単語のBERT解釈を改善する
- Authors: Valentin Hofmann, Janet B. Pierrehumbert, Hinrich Sch\"utze
- Abstract要約: PLMは連続二重ルートモデル、すなわち複素単語の意味が格納されるか、あるいはサブワードから計算される必要があると解釈できることを示した。
入力トークンの形態的インフォームドボキャブラリを用いた場合, PLMの一般化能力はさらに向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 13.535770763481905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How does the input segmentation of pretrained language models (PLMs) affect
their generalization capabilities? We present the first study investigating
this question, taking BERT as the example PLM and focusing on the semantic
representations of derivationally complex words. We show that PLMs can be
interpreted as serial dual-route models, i.e., the meanings of complex words
are either stored or else need to be computed from the subwords, which implies
that maximally meaningful input tokens should allow for the best generalization
on new words. This hypothesis is confirmed by a series of semantic probing
tasks on which derivational segmentation consistently outperforms BERT's
WordPiece segmentation by a large margin. Our results suggest that the
generalization capabilities of PLMs could be further improved if a
morphologically-informed vocabulary of input tokens were used.
- Abstract(参考訳): 事前学習言語モデル(PLM)の入力セグメンテーションは一般化能力にどのように影響しますか?
本稿では, bert をplm の例とし, 導出的に複雑な単語の意味表現に着目した最初の研究を行う。
PLMはシリアルな二重ルートモデルとして解釈可能であること、すなわち、複雑な単語の意味が格納されているか、あるいはそのサブワードから計算される必要があることを示し、これは最大意味のある入力トークンが新しい単語の最高の一般化を可能にすることを意味する。
この仮説は、導出的セグメンテーションがbertのワードピースセグメンテーションを大きく上回る一連の意味的プロビングタスクによって証明される。
入力トークンの形態的インフォームドボキャブラリを用いた場合, PLMの一般化能力はさらに向上する可能性が示唆された。
関連論文リスト
- From Tokens to Words: On the Inner Lexicon of LLMs [7.148628740938674]
自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。
本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。
以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-08T09:53:35Z) - Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic
Interpretability: A Case Study on Othello-GPT [59.245414547751636]
本稿では,アクティベーションパッチに代わる回路発見フレームワークを提案する。
当社のフレームワークはアウト・オブ・ディストリビューション(out-of-distribution)に悩まされており、複雑さの観点からより効率的であることが証明されています。
我々はOthelloという名前の合成タスクで訓練された小さなトランスフォーマーを掘り下げ、その内部に人間に理解可能な微細な回路がいくつかある。
論文 参考訳(メタデータ) (2024-02-19T15:04:53Z) - Improving Generalization in Language Model-Based Text-to-SQL Semantic
Parsing: Two Simple Semantic Boundary-Based Techniques [14.634536051274468]
LMトークン化器が生成するトークンの意味的境界を保存するためのトークン前処理手法を提案する。
シーケンスレベルでは、入力と出力の間に整列したコンポーネントの境界を示すために特別なトークンを使うことを提案する。
2つのテキストからセマンティック・パーシング・データセットによる実験結果から,トークン前処理は単純ではあるが,両タイプの一般化におけるLM性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-05-27T06:09:03Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Breaking Character: Are Subwords Good Enough for MRLs After All? [36.11778282905458]
単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。
我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。
これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-04-10T18:54:43Z) - Distributed Word Representation in Tsetlin Machine [14.62945824459286]
Tsetlin Machine (TM) は命題論理に基づく解釈可能なパターン認識アルゴリズムである。
tmに事前学習した単語表現を用いる新しい手法を提案する。
このアプローチはTM性能を大幅に向上させ、同時に解釈性を維持します。
論文 参考訳(メタデータ) (2021-04-14T14:48:41Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。