論文の概要: Word2Box: Learning Word Representation Using Box Embeddings
- arxiv url: http://arxiv.org/abs/2106.14361v1
- Date: Mon, 28 Jun 2021 01:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 00:59:48.980493
- Title: Word2Box: Learning Word Representation Using Box Embeddings
- Title(参考訳): Word2Box: ボックス埋め込みによる単語表現の学習
- Authors: Shib Sankar Dasgupta, Michael Boratko, Shriya Atmakuri, Xiang Lorraine
Li, Dhruvesh Patel, Andrew McCallum
- Abstract要約: 単語のベクトル表現を学習することは、NLPにおける最も基本的なトピックの1つである。
我々のモデルであるWord2Boxは、単語表現の問題に対する領域ベースアプローチを採用し、単語を$n$次元長方形として表現する。
様々な単語類似性タスク、特にあまり一般的でない単語の性能向上を実証した。
- 参考スコア(独自算出の注目度): 28.080105878687185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning vector representations for words is one of the most fundamental
topics in NLP, capable of capturing syntactic and semantic relationships useful
in a variety of downstream NLP tasks. Vector representations can be limiting,
however, in that typical scoring such as dot product similarity intertwines
position and magnitude of the vector in space. Exciting innovations in the
space of representation learning have proposed alternative fundamental
representations, such as distributions, hyperbolic vectors, or regions. Our
model, Word2Box, takes a region-based approach to the problem of word
representation, representing words as $n$-dimensional rectangles. These
representations encode position and breadth independently and provide
additional geometric operations such as intersection and containment which
allow them to model co-occurrence patterns vectors struggle with. We
demonstrate improved performance on various word similarity tasks, particularly
on less common words, and perform a qualitative analysis exploring the
additional unique expressivity provided by Word2Box.
- Abstract(参考訳): 単語のベクトル表現を学習することはNLPにおける最も基本的なトピックの1つであり、様々な下流のNLPタスクで有用な構文的および意味的関係を捉えることができる。
しかしベクトル表現は、ドット積の類似性のような典型的なスコアリングが空間におけるベクトルの位置と大きさとを相互に交わすことで制限することができる。
表現学習の領域におけるエキサイティングな革新は、分布、双曲ベクトル、領域などの代替の基本的な表現を提案している。
私たちのモデルであるword2boxは、単語表現の問題を領域ベースのアプローチで表現し、単語をn$-dimensional rectanglesとして表現します。
これらの表現は位置と幅を独立にエンコードし、交叉や封じ込めなどの幾何学的な演算を提供し、共起パターンベクトルをモデル化する。
様々な単語類似性タスク、特にあまり一般的でない単語の性能向上を実証し、word2boxが提供する付加的な一意的な表現性を検討する質的分析を行う。
関連論文リスト
- Representation Of Lexical Stylistic Features In Language Models'
Embedding Space [28.60690854046176]
これらのスタイリスティックな概念のそれぞれに対して,少数のシードペアのみからベクトル表現を導出できることが示されている。
5つのデータセットで実験を行い、静的な埋め込みがこれらの特徴を単語やフレーズのレベルでより正確にエンコードすることを発見した。
単語レベルでの文脈化表現の低い性能は、ベクトル空間の異方性に起因する。
論文 参考訳(メタデータ) (2023-05-29T23:44:26Z) - Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - High-dimensional distributed semantic spaces for utterances [0.2907403645801429]
本稿では,発話とテキストレベルデータの高次元表現モデルについて述べる。
言語情報を表現する数学的原理と行動学的に妥当なアプローチに基づいている。
本論文は,固定次元の共通積分フレームワークにおいて,実装モデルが言語的特徴を広範囲に表すことができるかを示す。
論文 参考訳(メタデータ) (2021-04-01T12:09:47Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Multidirectional Associative Optimization of Function-Specific Word
Representations [86.87082468226387]
本稿では,関係する単語群間の関連を学習するためのニューラルネットワークフレームワークを提案する。
我々のモデルは結合関数固有の単語ベクトル空間を誘導し、例えば可塑性SVO合成のベクトルが近接して配置される。
このモデルは、共同空間においても単語群のメンバーシップに関する情報を保持し、SVO構造を前提とした複数のタスクに効果的に適用することができる。
論文 参考訳(メタデータ) (2020-05-11T17:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。