論文の概要: Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing
- arxiv url: http://arxiv.org/abs/2310.11923v1
- Date: Wed, 18 Oct 2023 12:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 16:35:08.093454
- Title: Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing
- Title(参考訳): 線形構造探索によるトランスフォーマー文埋め込みの意味部分空間の検討
- Authors: Dmitry Nikolaev and Sebastian Pad\'o
- Abstract要約: 本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
- 参考スコア(独自算出の注目度): 2.5002227227256864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The question of what kinds of linguistic information are encoded in different
layers of Transformer-based language models is of considerable interest for the
NLP community. Existing work, however, has overwhelmingly focused on word-level
representations and encoder-only language models with the masked-token training
objective. In this paper, we present experiments with semantic structural
probing, a method for studying sentence-level representations via finding a
subspace of the embedding space that provides suitable task-specific pairwise
distances between data-points. We apply our method to language models from
different families (encoder-only, decoder-only, encoder-decoder) and of
different sizes in the context of two tasks, semantic textual similarity and
natural-language inference. We find that model families differ substantially in
their performance and layer dynamics, but that the results are largely
model-size invariant.
- Abstract(参考訳): トランスフォーマーベース言語モデルの異なる層にどのような言語情報がエンコードされているかという問題は、NLPコミュニティにとって大きな関心事である。
しかし、既存の作業は、マスキングトケンのトレーニング目的を持つ単語レベルの表現とエンコーダのみの言語モデルに圧倒的に重点を置いている。
本稿では,データポイント間のタスク固有のペアワイズ距離を提供する埋め込み空間のサブスペースを見つけることによって,文レベルの表現を研究するセマンティックな構造探索実験を行う。
本手法は,異なるファミリー(エンコーダのみ,デコーダのみ,エンコーダデコーダのみ)の言語モデルと,意味的テキスト類似性と自然言語推論という2つのタスクの文脈における異なる大きさの言語モデルに適用する。
モデルファミリーは性能と層動力学で大きく異なるが、結果はほとんどがモデルサイズの不変量であることがわかった。
関連論文リスト
- Metric-Learning Encoding Models Identify Processing Profiles of
Linguistic Features in BERT's Representations [5.893248479095486]
メトリックラーニングモデル(MLEM)は、ニューラルネットワークが処理対象の理論的特徴をどのように表現するかを理解するための新しいアプローチである。
MLEMは、他のドメイン(例えば視覚)や人間の脳などの他の神経系に拡張することができる。
論文 参考訳(メタデータ) (2024-02-18T14:57:53Z) - Constructing Word-Context-Coupled Space Aligned with Associative
Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。
解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。
我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文 参考訳(メタデータ) (2023-05-19T09:26:02Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - BURT: BERT-inspired Universal Representation from Learning Meaningful
Segment [46.51685959045527]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
我々は、異なるレベルの言語単位を同じベクトル空間に符号化する普遍表現モデルburtを提案する。
具体的には,ポイントワイズ相互情報(pmi)に基づいて有意義なセグメントを抽出・マスキングし,異なる粒度目標を事前学習段階に組み込む。
論文 参考訳(メタデータ) (2020-12-28T16:02:28Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。