論文の概要: All Bark and No Bite: Rogue Dimensions in Transformer Language Models
Obscure Representational Quality
- arxiv url: http://arxiv.org/abs/2109.04404v1
- Date: Thu, 9 Sep 2021 16:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 17:10:31.457650
- Title: All Bark and No Bite: Rogue Dimensions in Transformer Language Models
Obscure Representational Quality
- Title(参考訳): All Bark and No Bite: トランスフォーマー言語モデルにおけるローグ次元は表現品質を損なう
- Authors: William Timkey, Marten van Schijndel
- Abstract要約: 我々は、文脈化された言語モデルに対するそのような尺度の有益性に疑問を投げかける。
少数のローグ次元(しばしば1-3)が類似度尺度を支配していることがわかった。
- 参考スコア(独自算出の注目度): 5.203329540700176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Similarity measures are a vital tool for understanding how language models
represent and process language. Standard representational similarity measures
such as cosine similarity and Euclidean distance have been successfully used in
static word embedding models to understand how words cluster in semantic space.
Recently, these measures have been applied to embeddings from contextualized
models such as BERT and GPT-2. In this work, we call into question the
informativity of such measures for contextualized language models. We find that
a small number of rogue dimensions, often just 1-3, dominate these measures.
Moreover, we find a striking mismatch between the dimensions that dominate
similarity measures and those which are important to the behavior of the model.
We show that simple postprocessing techniques such as standardization are able
to correct for rogue dimensions and reveal underlying representational quality.
We argue that accounting for rogue dimensions is essential for any
similarity-based analysis of contextual language models.
- Abstract(参考訳): 類似度の測定は、言語モデルの表現方法やプロセス言語を理解する上で重要なツールである。
コサイン相似性やユークリッド距離といった標準表現相似性尺度は、静的な単語埋め込みモデルにおいて、意味空間における単語のクラスターの理解に成功している。
近年,BERT や GPT-2 などの文脈モデルからの埋め込みにも適用されている。
本研究では,文脈型言語モデルに対するそのような尺度の有意性に疑問を呈する。
少数のローグ次元(しばしば 1-3 のみ)がこれらの測度を支配することが分かる。
さらに,類似度尺度を支配する次元と,モデルの挙動に重要な次元との間に,著しい不一致がみられた。
標準化のような単純な後処理技術はローグ次元を補正し、基礎となる表現品質を明らかにすることができることを示す。
我々は,文脈言語モデルの類似性に基づく分析には悪質な次元の計算が不可欠であると主張する。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - The Shape of Word Embeddings: Quantifying Non-Isometry With Topological Data Analysis [10.242373477945376]
我々は、トポロジカルデータ解析から永続的ホモロジーを用いて、ラベルなし埋め込みの形状から言語ペア間の距離を測定する。
これらの違いが無作為な訓練誤りなのか、それとも言語に関する実情報なのかを識別するために、計算された距離行列を用いて81のインド・ヨーロッパ語に言語系統木を構築する。
論文 参考訳(メタデータ) (2024-03-30T23:51:25Z) - Probing Physical Reasoning with Counter-Commonsense Context [34.8562766828087]
本研究では,物理コモンセンスが文脈化サイズ比較タスクに与える影響について検討する。
このデータセットは、さまざまなコンテキスト下でオブジェクト間のサイズ関係を予測する言語モデルの能力をテストする。
論文 参考訳(メタデータ) (2023-06-04T04:24:43Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Similarity between Units of Natural Language: The Transition from Coarse
to Fine Estimation [0.0]
人間の言語ユニット間の類似性を捉えることは、人間がどう異なる物体を関連づけるかを説明するのに不可欠です。
この論文における私の研究目標は、より洗練された方法で言語単位間の類似性を考慮した回帰モデルを開発することです。
論文 参考訳(メタデータ) (2022-10-25T18:54:32Z) - Visual Comparison of Language Model Adaptation [55.92129223662381]
アダプタは、モデル適応のための軽量な代替品です。
本稿では,インタラクティブな視覚的説明手法について,いくつかの設計と代替案について論じる。
例えば、文脈0の埋め込みに従って言語脱バイアスタスクを訓練したアダプタが、新しいタイプのバイアスをもたらすことを示す。
論文 参考訳(メタデータ) (2022-08-17T09:25:28Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Bilingual Topic Models for Comparable Corpora [9.509416095106491]
ペア化された文書の分布間の結合機構を提案する。
異なる言語で書かれた文書の類似性を推定するために、浅いニューラルネットワークで学習した言語間単語埋め込みを用いる。
提案手法は2つのトピックモデルを拡張して評価する: 単語のバグ入力を仮定するLDAのバイリンガル適応と、テキスト構造の一部を意味的に一貫性のあるセグメントの境界に組み込んだモデル。
論文 参考訳(メタデータ) (2021-11-30T10:53:41Z) - Using Distributional Principles for the Semantic Study of Contextual
Language Models [7.284661356980247]
我々はまず,SemCorとWordNetのパラダイム関係を制御した文脈において,置換の分布原理を探索機構として活用することによって,これらの特性を英語に焦点をあてる。
次に、静的言語モデルと文脈言語モデルの違いを特徴付けるために、よりオープンな設定に同じ手法を適用することを提案する。
論文 参考訳(メタデータ) (2021-11-23T22:21:16Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。