論文の概要: Representation Of Lexical Stylistic Features In Language Models'
Embedding Space
- arxiv url: http://arxiv.org/abs/2305.18657v2
- Date: Wed, 31 May 2023 22:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 11:11:16.297243
- Title: Representation Of Lexical Stylistic Features In Language Models'
Embedding Space
- Title(参考訳): 言語モデル埋め込み空間における語彙構造的特徴の表現
- Authors: Qing Lyu, Marianna Apidianaki, Chris Callison-Burch
- Abstract要約: これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
- 参考スコア(独自算出の注目度): 28.60690854046176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The representation space of pretrained Language Models (LMs) encodes rich
information about words and their relationships (e.g., similarity, hypernymy,
polysemy) as well as abstract semantic notions (e.g., intensity). In this
paper, we demonstrate that lexical stylistic notions such as complexity,
formality, and figurativeness, can also be identified in this space. We show
that it is possible to derive a vector representation for each of these
stylistic notions from only a small number of seed pairs. Using these vectors,
we can characterize new texts in terms of these dimensions by performing simple
calculations in the corresponding embedding space. We conduct experiments on
five datasets and find that static embeddings encode these features more
accurately at the level of words and phrases, whereas contextualized LMs
perform better on sentences. The lower performance of contextualized
representations at the word level is partially attributable to the anisotropy
of their vector space, which can be corrected to some extent using techniques
like standardization.
- Abstract(参考訳): 事前訓練された言語モデル(LM)の表現空間は、単語とその関係(例えば、類似性、ハイパーネミー、ポリセミー)と抽象意味概念(例えば、強度)に関する豊富な情報を符号化する。
本稿では,この空間において,複雑性,形式性,フィギュラリティといった語彙的様式的概念も同定できることを実証する。
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
これらのベクトルを用いて、対応する埋め込み空間で簡単な計算を行うことで、これらの次元の観点から新しいテキストを特徴付けることができる。
我々は5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確に符号化するのに対し、文脈化されたLMは文でよりよく機能することを示した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因するものであり、標準化のような手法を用いてある程度修正することができる。
関連論文リスト
- Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Towards Robust and Semantically Organised Latent Representations for
Unsupervised Text Style Transfer [6.467090475885798]
この摂動モデルを完成させるEPAAE(Perturbed Adrial AutoEncoders)を導入する。
これは、(a)スタイル的に類似した文をまとめるより優れた組織化された潜在空間を生み出すことを実証的に示す。
また、テキストスタイルの転送タスクをNLIデータセットに拡張し、これらのより複雑なスタイル定義がEPAAEによって最もよく学習されていることを示す。
論文 参考訳(メタデータ) (2022-05-04T20:04:24Z) - Word2Box: Learning Word Representation Using Box Embeddings [28.080105878687185]
単語のベクトル表現を学習することは、NLPにおける最も基本的なトピックの1つである。
我々のモデルであるWord2Boxは、単語表現の問題に対する領域ベースアプローチを採用し、単語を$n$次元長方形として表現する。
様々な単語類似性タスク、特にあまり一般的でない単語の性能向上を実証した。
論文 参考訳(メタデータ) (2021-06-28T01:17:11Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z) - Word Equations: Inherently Interpretable Sparse Word Embeddingsthrough
Sparse Coding [0.0]
それぞれの次元が、その次元の意味を記述できる人間の理解可能なヒントと結びついているシステムを作成する。
我々はこれらの埋め込みをスパース符号化により構築し、基底集合の各ベクトルはそれ自体がワード埋め込みである。
これらのスパース埋め込みを用いて訓練されたモデルは、優れた性能を達成でき、人的評価を含む実践上より解釈可能であることを示す。
論文 参考訳(メタデータ) (2020-04-08T19:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。