論文の概要: MLPs Compass: What is learned when MLPs are combined with PLMs?
- arxiv url: http://arxiv.org/abs/2401.01667v1
- Date: Wed, 3 Jan 2024 11:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 14:23:18.138766
- Title: MLPs Compass: What is learned when MLPs are combined with PLMs?
- Title(参考訳): MLPs Compass: MLPとPLMの組み合わせで何を学んだか?
- Authors: Li Zhou, Wenyu Chen, Yong Cao, Dingyi Zeng, Wanlong Liu, Hong Qu
- Abstract要約: 堅牢な構造キャプチャ機能を実現するマルチレイヤ・パーセプトロン(MLP)モジュールは、グラフニューラルネットワーク(GNN)よりも優れています。
本稿は,PLMの言語情報取得能力が向上するかどうかを定量化することを目的とする。
- 参考スコア(独自算出の注目度): 20.003022732050994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformer-based pre-trained language models and their variants
exhibit strong semantic representation capabilities, the question of
comprehending the information gain derived from the additional components of
PLMs remains an open question in this field. Motivated by recent efforts that
prove Multilayer-Perceptrons (MLPs) modules achieving robust structural capture
capabilities, even outperforming Graph Neural Networks (GNNs), this paper aims
to quantify whether simple MLPs can further enhance the already potent ability
of PLMs to capture linguistic information. Specifically, we design a simple yet
effective probing framework containing MLPs components based on BERT structure
and conduct extensive experiments encompassing 10 probing tasks spanning three
distinct linguistic levels. The experimental results demonstrate that MLPs can
indeed enhance the comprehension of linguistic structure by PLMs. Our research
provides interpretable and valuable insights into crafting variations of PLMs
utilizing MLPs for tasks that emphasize diverse linguistic structures.
- Abstract(参考訳): トランスフォーマーをベースとした事前学習型言語モデルとその変種は強力な意味表現能力を示すが、PLMの付加的なコンポーネントから得られる情報の獲得を補完する問題は、この分野では未解決の問題である。
マルチレイヤ・パーセプトロン(MLP)モジュールが頑健な構造的キャプチャ機能を実現し,グラフニューラルネットワーク(GNN)よりも優れていることを示す最近の取り組みにより,単純なMPPが言語情報を取得する上で既に強力な能力を高めることができるかどうかを定量化する。
具体的には、BERT構造に基づくMPPを含む単純かつ効果的な探索フレームワークを設計し、3つの異なる言語レベルにまたがる10の探索タスクを含む広範な実験を行う。
実験の結果,MPPはPLMによる言語構造の理解を高めることができることがわかった。
本研究は,多種多様な言語構造を強調するタスクにおいて,MLPを用いたPLMの多様性の理解と価値を提供する。
関連論文リスト
- MLPs Learn In-Context on Regression and Classification Tasks [28.13046236900491]
In-context Learning (ICL) はしばしばトランスフォーマーモデルのユニークな特徴であると考えられている。
マルチ層パーセプトロン(MLP)もコンテキスト内で学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-24T15:04:36Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning [40.994306592119266]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
我々は、NTK近似モジュールを融合して軽量PLMを作成することを提案する。
論文 参考訳(メタデータ) (2023-07-18T03:12:51Z) - How Does Pretraining Improve Discourse-Aware Translation? [41.20896077662125]
本稿では,事前学習した言語モデルが会話関係の知識を捉える能力を理解するための探索タスクを提案する。
我々は、エンコーダ-、デコーダ-、およびエンコーダ-デコーダ-ベースモデルの3つの最先端PLMを検証する。
本研究は, PLMにおける言論的知識が下流作業にどのように機能するか, どのように機能するかを理解するための指導的手法である。
論文 参考訳(メタデータ) (2023-05-31T13:36:51Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - SA-MLP: Distilling Graph Knowledge from GNNs into Structure-Aware MLP [46.52398427166938]
予測加速の1つの有望な方向は、GNNをメッセージパスなしの学生多層パーセプトロンに蒸留することである。
本稿では,構造化情報のための学習能力を高めるための構造混合知識戦略を提案する。
我々のSA-MLPは、より高速な推論支援を維持しながら、教師のGNNを一貫して上回ります。
論文 参考訳(メタデータ) (2022-10-18T05:55:36Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z) - Knowledge Enhanced Pretrained Language Models: A Compreshensive Survey [8.427521246916463]
事前学習型言語モデル(PLM)は,大規模テキストコーパス上で情報表現を学習することで,新たなパラダイムを確立した。
この新しいパラダイムは、自然言語処理の分野全体に革命をもたらし、さまざまなNLPタスクに対して、新しい最先端のパフォーマンスを設定した。
この問題に対処するため, PLM への知識統合は近年, 非常に活発な研究領域となり, 様々なアプローチが開発されている。
論文 参考訳(メタデータ) (2021-10-16T03:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。