論文の概要: Unsupervised Word Polysemy Quantification with Multiresolution Grids of
Contextual Embeddings
- arxiv url: http://arxiv.org/abs/2003.10224v2
- Date: Fri, 12 Feb 2021 12:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:07:55.429393
- Title: Unsupervised Word Polysemy Quantification with Multiresolution Grids of
Contextual Embeddings
- Title(参考訳): 文脈埋め込みのマルチレゾリューショングリッドを用いた教師なし単語ポリセミー量化
- Authors: Christos Xypolopoulos, Antoine J.-P. Tixier, Michalis Vazirgiannis
- Abstract要約: 与えられた単語の感覚の数、つまり多意味性は、非常に主観的な概念である。
文脈埋め込み空間における単純な幾何学に基づいて,ポリセミーを推定する新しい手法を提案する。
私たちのアプローチは完全に教師なし、純粋にデータ駆動です。
- 参考スコア(独自算出の注目度): 20.367805262900127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The number of senses of a given word, or polysemy, is a very subjective
notion, which varies widely across annotators and resources. We propose a novel
method to estimate polysemy, based on simple geometry in the contextual
embedding space. Our approach is fully unsupervised and purely data-driven. We
show through rigorous experiments that our rankings are well correlated (with
strong statistical significance) with 6 different rankings derived from famous
human-constructed resources such as WordNet, OntoNotes, Oxford, Wikipedia etc.,
for 6 different standard metrics. We also visualize and analyze the correlation
between the human rankings. A valuable by-product of our method is the ability
to sample, at no extra cost, sentences containing different senses of a given
word. Finally, the fully unsupervised nature of our method makes it applicable
to any language.
Code and data are publicly available at
https://github.com/ksipos/polysemy-assessment .
The paper was accepted as a long paper at EACL 2021.
- Abstract(参考訳): ある単語の感覚(polysemy)の数は、非常に主観的な概念であり、注釈家やリソースによって大きく異なる。
文脈埋め込み空間における単純な幾何学に基づいて,ポリセミーを推定する新しい手法を提案する。
私たちのアプローチは完全に教師なし、純粋にデータ駆動です。
我々は,wordnet,onnotes,oxford,wikipediaなどの有名な人間構成資源から得られた6つのランキングと,6つの標準指標について,高い相関性(強い統計的意義)があることを示す厳密な実験を行った。
また,人間ランキングの相関関係を可視化し分析した。
我々の方法の貴重な副産物は、与えられた単語の異なる感覚を含む文を、余分なコストでサンプリングする能力である。
最後に、我々の手法の完全に教師なしの性質は、どんな言語にも適用できる。
コードとデータはhttps://github.com/ksipos/polysemy-assesment で公開されている。
この論文はEACL 2021で長い論文として受け入れられた。
関連論文リスト
- RankSum An unsupervised extractive text summarization based on rank
fusion [0.0]
本稿では,単一文書の抽出テキスト要約手法であるRansumを提案する。
ランクサムは、各特徴に対応する文の給与ランクを教師なしの方法で取得する。
CNN/DailyMail と DUC 2002 で利用可能な要約データセットについて検討した。
論文 参考訳(メタデータ) (2024-02-07T22:24:09Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - A Bayesian approach to uncertainty in word embedding bias estimation [0.0]
WEAT や MAC のような複数の測度は、単語の埋め込みに存在するバイアスの大きさを1つの数字のメートル法で定量化しようとする。
このような手法を用いて、意図したバイアスを欠いたnullモデルによってデータが生成される場合でも、同様の結果が容易に得られることを示す。
単語埋め込みにおけるバイアスのより不確実性に敏感な検査を可能にする階層型ベイズモデルを提案する。
論文 参考訳(メタデータ) (2023-06-15T11:48:50Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - DOCENT: Learning Self-Supervised Entity Representations from Large
Document Collections [18.62873757515885]
本稿では、大量の関連テキストからリッチな自己教師型エンティティ表現を学習する。
事前学習すると、これらのモデルは、ランク付けされた検索、知識ベース補完、質問応答など、複数のエンティティ中心のタスクに適用できる。
我々は,従来のアプローチとは異なり,単語や実体を共同で予測する訓練戦略をいくつか提示する。
論文 参考訳(メタデータ) (2021-02-26T01:00:12Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Polysemy Deciphering Network for Robust Human-Object Interaction
Detection [86.97181280842098]
本稿では,HOI検出のための動詞の視覚的ポリセミーを復号する新しいポリセミー・デセプティング・ネットワーク(PD-Net)を提案する。
2つの新しいモジュールを用いてHOI検出機能をポリセミヤウェアに洗練する。
第2に, PD-Net に先立ってより重要と思われる特徴型に基づいて決定を下すための, 新たなpolysemy-Aware Modal Fusion モジュール (PAMF) を導入する。
論文 参考訳(メタデータ) (2020-08-07T00:49:27Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。