論文の概要: Analysis of Argument Structure Constructions in the Large Language Model BERT
- arxiv url: http://arxiv.org/abs/2408.04270v1
- Date: Thu, 8 Aug 2024 07:12:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:17:56.699863
- Title: Analysis of Argument Structure Constructions in the Large Language Model BERT
- Title(参考訳): 大規模言語モデルBERTにおける引数構造の解析
- Authors: Pegah Ramezani, Achim Schilling, Patrick Krauss,
- Abstract要約: 本研究は, BERTがArgument Structure Constructions (ASCs) をどのように処理し, 表現するかについて検討する。
4つのASCタイプにわたる2000文のデータセットを用いて、BERTのトークン埋め込みを12層にわたって分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates how BERT processes and represents Argument Structure Constructions (ASCs), extending previous LSTM analyses. Using a dataset of 2000 sentences across four ASC types (transitive, ditransitive, caused-motion, resultative), we analyzed BERT's token embeddings across 12 layers. Visualizations with MDS and t-SNE and clustering quantified by Generalized Discrimination Value (GDV) were used. Feedforward classifiers (probes) predicted construction categories from embeddings. CLS token embeddings clustered best in layers 2-4, decreased in intermediate layers, and slightly increased in final layers. DET and SUBJ embeddings showed consistent clustering in intermediate layers, VERB embeddings increased in clustering from layer 1 to 12, and OBJ embeddings peaked in layer 10. Probe accuracies indicated low construction information in layer 1, with over 90 percent accuracy from layer 2 onward, revealing latent construction information beyond GDV clustering. Fisher Discriminant Ratio (FDR) analysis of attention weights showed OBJ tokens were crucial for differentiating ASCs, followed by VERB and DET tokens. SUBJ, CLS, and SEP tokens had insignificant FDR scores. This study highlights BERT's layered processing of linguistic constructions and its differences from LSTMs. Future research will compare these findings with neuroimaging data to understand the neural correlates of ASC processing. This research underscores neural language models' potential to mirror linguistic processing in the human brain, offering insights into the computational and neural mechanisms underlying language understanding.
- Abstract(参考訳): 本研究では,従来のLSTM解析を拡張したArgument Structure Constructions (ASC) のプロセスと表現について検討した。
ASCの4つのタイプにまたがる2000文のデータセットを用いて,12層にまたがるBERTのトークン埋め込みを分析した。
一般化識別値(GDV)で定量化したMDS, t-SNE, クラスタリングによる可視化を行った。
フィードフォワード分類器(プローブ)は埋め込みから構築カテゴリを予測した。
CLSトークンの埋め込みは2-4層にクラスタ化され、中間層では減少し、最終層ではわずかに増加した。
DETとSUBJの埋め込みは中間層で一貫したクラスタリングを示し,VERBの埋め込みは1層から12層に増加し,OBJの埋め込みは10層にピークに達した。
プローブ精度は,GDVクラスタリング以上の潜伏構造情報を明らかにするため,第1層からの90%以上の精度で構築情報が低かった。
注意重量のFDR分析では、OBJトークンはASCの識別に不可欠であり、VERBトークンとDETトークンが続くことがわかった。
SUBJ, CLS, SEPトークンは重要なFDRスコアを持っていた。
本研究は,BERTによる言語構成の階層化処理とLSTMとの相違について述べる。
今後の研究は、これらの結果と神経画像データを比較して、ASC処理の神経関連性を理解する予定である。
この研究は、人間の脳における言語処理を反映するニューラルネットワークモデルの可能性を強調し、言語理解の基礎となる計算的および神経メカニズムに関する洞察を提供する。
関連論文リスト
- Precision, Stability, and Generalization: A Comprehensive Assessment of RNNs learnability capability for Classifying Counter and Dyck Languages [9.400009043451046]
本研究では,構造化形式言語におけるリカレントニューラルネットワーク(RNN)の学習可能性について検討する。
伝統的に、1次(LSTM)と2次(O2RNN)のRNNは、これらのタスクに有効であると考えられてきた。
論文 参考訳(メタデータ) (2024-10-04T03:22:49Z) - Analysis of Argument Structure Constructions in a Deep Recurrent Language Model [0.0]
本稿では,再帰型ニューラルネットワークモデルにおけるArgument Structure Constructions(ASC)の表現と処理について検討する。
その結果, 文表現は, 全層にまたがる4つのASCに対応する異なるクラスタを形成することがわかった。
これは、脳に拘束された比較的単純なリカレントニューラルネットワークでさえ、様々な構成タイプを効果的に区別できることを示している。
論文 参考訳(メタデータ) (2024-08-06T09:27:41Z) - Enhancing Cognitive Workload Classification Using Integrated LSTM Layers and CNNs for fNIRS Data Analysis [13.74551296919155]
本稿では、ディープラーニングモデルにおける畳み込みニューラルネットワーク(CNN)の有効性に対する長期記憶層の影響について検討する。
LSTMレイヤを統合することで、モデルがfNIRSデータ内の時間的依存関係をキャプチャし、認知状態をより包括的に理解することが可能になる。
論文 参考訳(メタデータ) (2024-07-22T11:28:34Z) - Exploring Hierarchical Classification Performance for Time Series Data:
Dissimilarity Measures and Classifier Comparisons [0.0]
本研究では,時系列データ解析における階層分類(HC)とフラット分類(FC)の手法の比較性能について検討した。
Jensen-Shannon Distance (JSD), Task similarity Distance (TSD), Based Distance (CBD)などの異種性対策が活用されている。
論文 参考訳(メタデータ) (2024-02-07T21:46:26Z) - LSTM-based Deep Neural Network With A Focus on Sentence Representation for Sequential Sentence Classification in Medical Scientific Abstracts [37.514112936955236]
文レベルでの包括的文表現に焦点をあてたLSTMに基づくディープラーニングネットワークを提案する。
提案システムでは,最先端システムと比較して高い競争力が得られる。
論文 参考訳(メタデータ) (2024-01-29T03:05:35Z) - Unsupervised Chunking with Hierarchical RNN [62.15060807493364]
本稿では,非階層的手法で単語をグループ化する構文的タスクであるチャンキングに対する教師なしアプローチを紹介する。
本稿では,単語-チャンク・チャンク-文合成をモデル化した2層階層型階層型リカレントニューラルネットワーク(HRNN)を提案する。
CoNLL-2000データセットの実験では、既存の教師なし手法よりも顕著な改善が見られ、フレーズF1スコアが最大6ポイント向上した。
論文 参考訳(メタデータ) (2023-09-10T02:55:12Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - Initial Study into Application of Feature Density and
Linguistically-backed Embedding to Improve Machine Learning-based
Cyberbullying Detection [54.83707803301847]
この研究は、自動サイバーバブル検出に関するKaggleコンペティションで提供されたFormspringデータセットで実施された。
本研究は,サイバブリング検出におけるニューラルネットワークの有効性と分類器性能と特徴密度の相関性を確認した。
論文 参考訳(メタデータ) (2022-06-04T03:17:15Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Understanding and Diagnosing Vulnerability under Adversarial Attacks [62.661498155101654]
ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが知られている。
本稿では,潜在変数の分類に使用される特徴を説明するために,新しい解釈可能性手法であるInterpretGANを提案する。
また、各層がもたらす脆弱性を定量化する最初の診断方法も設計する。
論文 参考訳(メタデータ) (2020-07-17T01:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。