論文の概要: Can BERT eat RuCoLA? Topological Data Analysis to Explain
- arxiv url: http://arxiv.org/abs/2304.01680v1
- Date: Tue, 4 Apr 2023 10:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 14:17:08.634561
- Title: Can BERT eat RuCoLA? Topological Data Analysis to Explain
- Title(参考訳): BERTはRuCoLAを食べられるか?
解説へのトポロジカルデータ分析
- Authors: Irina Proskurina, Irina Piontkovskaya, Ekaterina Artemova
- Abstract要約: 本稿では,アクセシビリティ分類のためのトランスフォーマー言語モデル (LM) の微調整について検討する。
我々は、注意行列から有向注意グラフを構築し、それらから位相的特徴を導出し、それらを線形分類器に供給する。
そこで本研究では,TDAに基づく分類器が微調整ベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.9775243265158076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates how Transformer language models (LMs) fine-tuned for
acceptability classification capture linguistic features. Our approach uses the
best practices of topological data analysis (TDA) in NLP: we construct directed
attention graphs from attention matrices, derive topological features from
them, and feed them to linear classifiers. We introduce two novel features,
chordality, and the matching number, and show that TDA-based classifiers
outperform fine-tuning baselines. We experiment with two datasets, CoLA and
RuCoLA in English and Russian, typologically different languages. On top of
that, we propose several black-box introspection techniques aimed at detecting
changes in the attention mode of the LMs during fine-tuning, defining the LM's
prediction confidences, and associating individual heads with fine-grained
grammar phenomena. Our results contribute to understanding the behavior of
monolingual LMs in the acceptability classification task, provide insights into
the functional roles of attention heads, and highlight the advantages of
TDA-based approaches for analyzing LMs. We release the code and the
experimental results for further uptake.
- Abstract(参考訳): 本稿では,アクセプタビリティ分類のためのトランスフォーマー言語モデル (LM) について検討する。
我々は,NLPにおけるトポロジカルデータ解析(TDA)のベストプラクティスを用いて,注意行列から注目グラフを構築し,それらからトポロジ的特徴を導出し,それらを線形分類器に供給する。
2つの新しい特徴、和音とマッチング数を導入し、tdaベースの分類器が微調整ベースラインよりも優れていることを示す。
我々は、英語とロシア語の2つのデータセット、CoLAとRuCoLAで実験を行った。
さらに,微調整中のLMの注意モードの変化を検知し,予測信頼度を定義し,個々の頭部を微粒な文法現象と関連付けることを目的としたブラックボックス検査手法を提案する。
本研究は, 受容性分類タスクにおける単言語lmsの挙動の理解, 注意ヘッドの機能的役割に関する知見の提供, およびlms分析におけるtdaベースのアプローチの利点を浮き彫りにする。
コードと実験結果を公開して、さらなる取組みを進めます。
関連論文リスト
- Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Topological Data Analysis for Speech Processing [10.00176964652466]
このような特徴の上に構築された単純な線形分類器は、微調整された分類ヘッドよりも優れていることを示す。
また、トポロジカルな特徴は、音声トランスフォーマーヘッドの機能的役割を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:22:37Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文 参考訳(メタデータ) (2022-07-28T08:28:09Z) - Acceptability Judgements via Examining the Topology of Attention Maps [10.941370131582605]
注意グラフの幾何学的特性は、言語学における2つの標準的な実践のために効率的に活用できることを示す。
トポロジ的特徴は、3つの言語におけるCoLAのBERTベースのアクセプティビリティスコアを8ドルから24ドルに向上させる。
論文 参考訳(メタデータ) (2022-05-19T15:45:12Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。