論文の概要: A Systematic Analysis of Morphological Content in BERT Models for
Multiple Languages
- arxiv url: http://arxiv.org/abs/2004.03032v1
- Date: Mon, 6 Apr 2020 22:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:45:05.677287
- Title: A Systematic Analysis of Morphological Content in BERT Models for
Multiple Languages
- Title(参考訳): 多言語用bertモデルにおける形態素内容の系統的解析
- Authors: Daniel Edmiston
- Abstract要約: 本研究は、形態学的内容に対するBERTスタイルモデルの隠れ表現を探索する実験について述べる。
目的は、形態的特徴と特徴値の形で、個別の言語構造が5つのヨーロッパ言語に対する事前学習された言語モデルのベクトル表現と注意分布にどの程度存在するかを検討することである。
- 参考スコア(独自算出の注目度): 2.345305607613153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work describes experiments which probe the hidden representations of
several BERT-style models for morphological content. The goal is to examine the
extent to which discrete linguistic structure, in the form of morphological
features and feature values, presents itself in the vector representations and
attention distributions of pre-trained language models for five European
languages. The experiments contained herein show that (i) Transformer
architectures largely partition their embedding space into convex sub-regions
highly correlated with morphological feature value, (ii) the contextualized
nature of transformer embeddings allows models to distinguish ambiguous
morphological forms in many, but not all cases, and (iii) very specific
attention head/layer combinations appear to hone in on subject-verb agreement.
- Abstract(参考訳): 本研究は、形態学的内容に対するBERTスタイルモデルの隠れ表現を探索する実験について述べる。
目的は、形態的特徴と特徴値の形で、個別の言語構造が5つのヨーロッパ言語に対する事前学習された言語モデルのベクトル表現と注意分布にどの程度存在するかを検討することである。
ここでの実験は、
(i)変圧器建築は,その埋蔵空間を,形態的特徴量と高い相関を持つ凸部分領域に分割する。
(ii) トランスフォーマー埋め込みの文脈的性質により、多くのケースであいまいな形態的形態を区別することができる。
(iii)特に注目される頭部と層の組み合わせは、主語と動詞の合意に基づいているようにみえる。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Labeled Morphological Segmentation with Semi-Markov Models [127.69031138022534]
いくつかのタスクを統一する形態的処理の代替として,ラベル付き形態的セグメンテーションを提案する。
また、形態素タグセットの新しい階層も導入する。
形態素を明示的にモデル化する識別型形態素分割システムであるモデル名を開発した。
論文 参考訳(メタデータ) (2024-04-13T12:51:53Z) - Explicit Morphological Knowledge Improves Pre-training of Language
Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。
本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。
実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文 参考訳(メタデータ) (2023-11-01T17:02:49Z) - A Joint Matrix Factorization Analysis of Multilingual Representations [28.751144371901958]
多言語モデルと単言語モデルの潜在表現を比較するために,結合行列の分解に基づく解析ツールを提案する。
我々は,多言語事前学習モデルを用いて学習した表現において,形態素的特徴がどのように反映されるかについて検討した。
論文 参考訳(メタデータ) (2023-10-24T04:43:45Z) - Exploring Linguistic Probes for Morphological Generalization [11.568042812213712]
これらのプローブを3つの形態学的に異なる言語で検証したところ、3つの主要な形態素インフレクション系が共役類に対して異なる一般化戦略と正書法および音韻的に書き起こされた入力上の特徴集合を用いているという証拠が得られた。
論文 参考訳(メタデータ) (2023-10-20T17:45:30Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - On the Transferability of Neural Models of Morphological Analogies [7.89271130004391]
本稿では,形態的課題に焦点をあて,形態的類似を検出するための深層学習手法を提案する。
我々は、我々のフレームワークが言語間でどのように移行するかを示す実証的研究を行い、これらの言語間の興味深い類似点と相違点を強調します。
これらの結果を踏まえ、多言語形態モデルの構築の可能性についても論じる。
論文 参考訳(メタデータ) (2021-08-09T11:08:33Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。