論文の概要: Idiomatic Expression Identification using Semantic Compatibility
- arxiv url: http://arxiv.org/abs/2110.10064v1
- Date: Tue, 19 Oct 2021 15:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 14:32:11.423325
- Title: Idiomatic Expression Identification using Semantic Compatibility
- Title(参考訳): 意味的相性を用いた慣用的表現同定
- Authors: Ziheng Zeng and Suma Bhat
- Abstract要約: 文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
- 参考スコア(独自算出の注目度): 8.355785779504869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Idiomatic expressions are an integral part of natural language and constantly
being added to a language. Owing to their non-compositionality and their
ability to take on a figurative or literal meaning depending on the sentential
context, they have been a classical challenge for NLP systems. To address this
challenge, we study the task of detecting whether a sentence has an idiomatic
expression and localizing it. Prior art for this task had studied specific
classes of idiomatic expressions offering limited views of their
generalizability to new idioms. We propose a multi-stage neural architecture
with the attention flow mechanism for identifying these expressions. The
network effectively fuses contextual and lexical information at different
levels using word and sub-word representations. Empirical evaluations on three
of the largest benchmark datasets with idiomatic expressions of varied
syntactic patterns and degrees of non-compositionality show that our proposed
model achieves new state-of-the-art results. A salient feature of the model is
its ability to identify idioms unseen during training with gains from 1.4% to
30.8% over competitive baselines on the largest dataset.
- Abstract(参考訳): 慣用表現は自然言語の不可欠な部分であり、常に言語に追加される。
それらの非構成性や、知覚的文脈によって表現的あるいは文字通りの意味をとる能力から、それらはNLPシステムにおける古典的な挑戦である。
この課題に対処するために、文が慣用的な表現を持つかどうかを検出し、それを局所化するタスクについて検討する。
このタスクの先行技術は、新しいイディオムへの一般化可能性の限られた見解を提供する慣用表現の特定のクラスを研究していた。
本稿では,これらの表現を識別するための注意フロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このネットワークは、単語とサブワードの表現を用いて、文脈情報と語彙情報を異なるレベルで効果的に融合する。
様々な構文パターンの慣用的表現と非構成性の度合いを持つ最大3つのベンチマークデータセットの実証的評価により,提案モデルが新たな最先端結果を得ることを示す。
このモデルの注目すべき特徴は、トレーニング中に認識できないイディオムを識別する能力であり、最大のデータセットの競合ベースラインよりも1.4%から30.8%向上している。
関連論文リスト
- Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss [9.807885676930308]
本稿では, 単語の非対称的な寄与を取り入れた三重項損失を用いた慣用性モデルを提案する。
提案手法はSemEvalの課題に基づいて評価され,多くの指標において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T14:21:41Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Multi-sense embeddings through a word sense disambiguation process [2.2344764434954256]
最も適した感覚。
(MSSA)は、その文脈の意味的効果を考慮して、それぞれの単語をその特定の感覚で曖昧にし、注釈する。
我々は,単語類似性タスクの6つの異なるベンチマークでアプローチを検証し,そのアプローチが最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-01-21T16:22:34Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。