Fugu-MT 論文翻訳(概要): Putting Words in BERT's Mouth: Navigating Contextualized Vector Spaces with Pseudowords

論文の概要: Putting Words in BERT's Mouth: Navigating Contextualized Vector Spaces with Pseudowords

arxiv url: http://arxiv.org/abs/2109.11491v1
Date: Thu, 23 Sep 2021 16:42:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-24 15:03:42.677170
Title: Putting Words in BERT's Mouth: Navigating Contextualized Vector Spaces with Pseudowords
Title（参考訳）: BERTのモースにおける単語の配置:擬単語を用いた文脈化されたベクトル空間のナビゲーション
Authors: Taelin Karidi, Yichu Zhou, Nathan Schneider, Omri Abend, Vivek Srikumar
Abstract要約: 文脈化されたベクトル空間における個々の点周辺の領域を探索する手法を提案する。入力層に静的な埋め込みを行うためのスタンドインとして文脈化された「擬単語」を誘導することにより,BERT空間の幾何学を制御的に研究することができる。
参考スコア（独自算出の注目度）: 39.22204753634915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a method for exploring regions around individual points in a contextualized vector space (particularly, BERT space), as a way to investigate how these regions correspond to word senses. By inducing a contextualized "pseudoword" as a stand-in for a static embedding in the input layer, and then performing masked prediction of a word in the sentence, we are able to investigate the geometry of the BERT-space in a controlled manner around individual instances. Using our method on a set of carefully constructed sentences targeting ambiguous English words, we find substantial regularity in the contextualized space, with regions that correspond to distinct word senses; but between these regions there are occasionally "sense voids" -- regions that do not correspond to any intelligible sense.
Abstract（参考訳）: 本研究では,文脈化されたベクトル空間(特にBERT空間)における個々の点周辺の領域を探索する手法を提案する。入力層に静的な埋め込みを行うためのスタンドインとして文脈化された「疑似単語」を誘導し、文中の単語のマスキング予測を行うことで、個々のインスタンスを中心に制御された方法でBERT空間の幾何学を調査することができる。本手法は,不明瞭な英単語を対象とする一組の文を用いて,異なる単語感覚に対応する領域を含む文脈化空間においてかなりの規則性を示すが,これらの領域の間には時として「センス・ヴォイド」が存在する。

関連論文リスト

TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection [62.95726973851089]
TokenCLIPは、異常学習のためのトークンワイド適応フレームワークである。視覚的なテキスト空間と学習可能なテキスト空間の動的アライメントを可能にし、微粒な異常学習を実現する。
論文参考訳（メタデータ） (2025-10-24T05:51:31Z)
Testing the assumptions about the geometry of sentence embedding spaces: the cosine measure need not apply [1.1544794958059696]
Transformerモデルは入力テキストのエンコードとデコードを学び、副作用としてコンテキストトークンの埋め込みを生成する。言語から埋め込み空間への写像は、同様の概念を表現した単語を、空間の近くにある点に写す。実際には、この空間の近点に対応する単語は類似または関連しており、さらにその単語は関連しない。
論文参考訳（メタデータ） (2025-09-01T16:37:03Z)
LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文参考訳（メタデータ） (2024-02-07T07:26:49Z)
CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。 CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。視覚言語モデルの領域表現を効果的に強化することができる。
論文参考訳（メタデータ） (2023-12-18T17:39:47Z)
Driving Context into Text-to-Text Privatization [0.0]
textitMetric Differential Privacyは、単語のベクトルにノイズを加えることによって、テキストからテキストへの民営化を可能にする。分類精度が6.05%のかなり高いことを実証する。
論文参考訳（メタデータ） (2023-06-02T11:33:06Z)
Using Paraphrases to Study Properties of Contextual Embeddings [46.84861591608146]
我々は、コンテキスト化された埋め込みを分析するために、独自のデータソースとしてパラフレーズを使用します。パラフレーズは自然に一貫した単語やフレーズのセマンティクスを符号化するため、埋め込みの性質を調査するためのユニークなレンズを提供する。文脈埋め込みは多文語を効果的に扱うが、多くの場合、驚くほど異なる表現を与える。
論文参考訳（メタデータ） (2022-07-12T14:22:05Z)
Simple, Interpretable and Stable Method for Detecting Words with Usage Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文参考訳（メタデータ） (2021-12-28T23:46:00Z)
UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-05-28T19:44:24Z)
Probing BERT in Hyperbolic Spaces [28.764397101583047]
この研究は、階層構造に対するより良い帰納的バイアスを示す幾何学的特殊空間、双曲空間の族を考える。明確に定義された階層を持つ Poincare サブスペースにこれらの埋め込みを投影する Poincare プローブを紹介します。語彙的に制御された文脈化が埋め込みの幾何的局在をいかに変えるかを示す。
論文参考訳（メタデータ） (2021-04-08T16:24:53Z)
Homonym Identification using BERT -- Using a Clustering Approach [0.0]
本研究の目的は, 文脈情報が正称単語の識別に十分かどうかを判断することである。コンテキストをキャプチャするために、BERTの埋め込みはWord2Vecとは対照的に使用される。埋め込みには様々なクラスタリングアルゴリズムが適用される。最後に、埋め込みを低次元空間に可視化し、クラスタリングプロセスの実現可能性を理解する。
論文参考訳（メタデータ） (2021-01-07T06:26:59Z)
Contextualized Word Embeddings Encode Aspects of Human-Like Word Sense Knowledge [0.0]
NLPの最近の進歩、特に文脈的単語埋め込みは、英語の単語感覚間の人間的な区別を捉えているかどうかを考察する。 BERT埋め込み空間における感覚間の距離と,感覚間の関連性に関する被験者の判断が相関していることが判明した。本研究は,意味の連続空間表現の有用性を示唆するものである。
論文参考訳（メタデータ） (2020-10-25T07:56:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。