論文の概要: Will it Unblend?
- arxiv url: http://arxiv.org/abs/2009.09123v1
- Date: Fri, 18 Sep 2020 23:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:14:22.040483
- Title: Will it Unblend?
- Title(参考訳): 目が覚めるのか?
- Authors: Yuval Pinter, Cassandra L. Jacobs, Jacob Eisenstein
- Abstract要約: 我々は、大規模な文脈言語モデルによるブレンドの意味の解釈の難しさを定量化するために、英語 OOVブレンドの新しいデータセット上で実験を行う。
BERTによるこれらのブレンドの処理は、コンポーネントの意味を完全にアクセスすることができず、コンテキスト表現が意味的に不足していることが分かりました。
また、異なるモデルがブレンドの構造を容易に認識し、その起源を復元し、文脈認識型埋め込みシステムが文字レベルや文脈自由な埋め込みよりも優れていることを確認する。
- 参考スコア(独自算出の注目度): 28.665618926525386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing systems often struggle with out-of-vocabulary
(OOV) terms, which do not appear in training data. Blends, such as
"innoventor", are one particularly challenging class of OOV, as they are formed
by fusing together two or more bases that relate to the intended meaning in
unpredictable manners and degrees. In this work, we run experiments on a novel
dataset of English OOV blends to quantify the difficulty of interpreting the
meanings of blends by large-scale contextual language models such as BERT. We
first show that BERT's processing of these blends does not fully access the
component meanings, leaving their contextual representations semantically
impoverished. We find this is mostly due to the loss of characters resulting
from blend formation. Then, we assess how easily different models can recognize
the structure and recover the origin of blends, and find that context-aware
embedding systems outperform character-level and context-free embeddings,
although their results are still far from satisfactory.
- Abstract(参考訳): 自然言語処理システムは、訓練データには現れない語彙外用語(oov)に苦しむことが多い。
Innoventor"のようなブレンドは、予測不能な方法や度合いで意図された意味に関連する2つ以上のベースを融合することによって形成される、特に難しいOOVのクラスである。
本研究では,BERTのような大規模文脈言語モデルによるブレンドの意味の解釈の難しさを定量化するために,英語 OOV ブレンドの新しいデータセット上で実験を行った。
まず, bert のブレンド処理はコンポーネントの意味を完全にはアクセスせず, 文脈表現は意味的に貧弱であることを示した。
これは主にブレンド形成による文字の喪失によるものである。
そして,異なるモデルがブレンドの構造をいかに容易に認識し,その起源を復元するかを評価し,文脈認識型埋め込みシステムの方がキャラクタレベルや文脈自由な埋め込みよりも優れていることを示した。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。