論文の概要: PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic
Search
- arxiv url: http://arxiv.org/abs/2207.09068v2
- Date: Wed, 20 Jul 2022 03:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 10:49:31.921364
- Title: PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic
Search
- Title(参考訳): PiC: フレーズ理解と意味検索のためのPhrase-in-Contextデータセット
- Authors: Thang M. Pham, Seunghyun Yoon, Trung Bui, Anh Nguyen
- Abstract要約: 文脈ウィキペディアのページを伴って28Kの名詞句のデータセットであるPiCを提案する。
データセットのトレーニングによってランキングモデルの精度が向上し、質問回答モデル(QA)がほぼ人間に近い精度に大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 25.801066428860242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since BERT (Devlin et al., 2018), learning contextualized word embeddings has
been a de-facto standard in NLP. However, the progress of learning
contextualized phrase embeddings is hindered by the lack of a human-annotated,
phrase-in-context benchmark. To fill this gap, we propose PiC - a dataset of
~28K of noun phrases accompanied by their contextual Wikipedia pages and a
suite of three tasks of increasing difficulty for evaluating the quality of
phrase embeddings. We find that training on our dataset improves ranking
models' accuracy and remarkably pushes Question Answering (QA) models to
near-human accuracy which is 95% Exact Match (EM) on semantic search given a
query phrase and a passage. Interestingly, we find evidence that such
impressive performance is because the QA models learn to better capture the
common meaning of a phrase regardless of its actual context. That is, on our
Phrase Sense Disambiguation (PSD) task, SotA model accuracy drops substantially
(60% EM), failing to differentiate between two different senses of the same
phrase under two different contexts. Further results on our 3-task PiC
benchmark reveal that learning contextualized phrase embeddings remains an
interesting, open challenge.
- Abstract(参考訳): BERT (Devlin et al., 2018)以来、文脈化された単語の埋め込みの学習はNLPのデファクトスタンダードとなっている。
しかし、文脈化されたフレーズ埋め込みの学習の進歩は、人間の注釈付きフレーズインコンテキストベンチマークの欠如によって妨げられている。
このギャップを埋めるために, 名詞句のデータセットであるPiCを提案し, 文脈的ウィキペディアページと, 句埋め込みの質を評価するのに難易度を増す3つのタスクからなる。
我々のデータセットのトレーニングは、ランキングモデルの精度を向上し、質問回答モデル(QA)を、クエリフレーズとパスが与えられたセマンティックサーチで95%の精度で、ほぼ人間に近い精度に格上げする。
興味深いことに、このような印象的なパフォーマンスは、QAモデルが、実際の文脈に関係なく、フレーズの共通の意味をよりよく捉えることを学習しているためである。
すなわち、私たちのPhrase Sense Disambiguation(PSD)タスクでは、SotAモデルの精度は実質的に(60% EM)低下し、2つの異なる文脈下で同じフレーズの2つの異なる感覚を区別することができない。
3タスクのPiCベンチマークのさらなる結果は、文脈化されたフレーズの埋め込みの学習が、興味深い、オープンな課題であることを示している。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Approximate Nearest Neighbour Phrase Mining for Contextual Speech
Recognition [5.54562323810107]
我々は、コンテキストエンコーダの潜在空間からハードネガティブなフレーズを抽出する単純かつ効率的な方法を用いて、エンドツーエンドのコンテキスト対応トランスデューサ(CATT)モデルを訓練する。
トレーニング中、参照クエリーを考慮し、近い近傍探索を用いて類似したフレーズを多数マイニングする。
これらのサンプルフレーズは、ランダムな真理と基底的な文脈情報と共にコンテキストリストの負の例として使用される。
論文 参考訳(メタデータ) (2023-04-18T09:52:11Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Do Context-Aware Translation Models Pay the Right Attention? [61.25804242929533]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文 参考訳(メタデータ) (2021-05-14T17:32:24Z) - Non-Parametric Few-Shot Learning for Word Sense Disambiguation [11.175893018731712]
MetricWSDは、このデータアンバランス問題を緩和するための非パラメトリックな数ショット学習アプローチです。
MetricWSDは、ある単語の感覚間の距離を計算することを学ぶことで、高周波の単語から頻繁な単語に知識を伝達する。
論文 参考訳(メタデータ) (2021-04-26T16:08:46Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。