論文の概要: Investigating Idiomaticity in Word Representations
- arxiv url: http://arxiv.org/abs/2411.02610v1
- Date: Mon, 04 Nov 2024 21:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:37.345838
- Title: Investigating Idiomaticity in Word Representations
- Title(参考訳): 単語表現における慣用性の検討
- Authors: Wei He, Tiago Kramer Vieira, Marcos Garcia, Carolina Scarton, Marco Idiart, Aline Villavicencio,
- Abstract要約: 我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
- 参考スコア(独自算出の注目度): 9.208145117062339
- License:
- Abstract: Idiomatic expressions are an integral part of human languages, often used to express complex ideas in compressed or conventional ways (e.g. eager beaver as a keen and enthusiastic person). However, their interpretations may not be straightforwardly linked to the meanings of their individual components in isolation and this may have an impact for compositional approaches. In this paper, we investigate to what extent word representation models are able to go beyond compositional word combinations and capture multiword expression idiomaticity and some of the expected properties related to idiomatic meanings. We focus on noun compounds of varying levels of idiomaticity in two languages (English and Portuguese), presenting a dataset of minimal pairs containing human idiomaticity judgments for each noun compound at both type and token levels, their paraphrases and their occurrences in naturalistic and sense-neutral contexts, totalling 32,200 sentences. We propose this set of minimal pairs for evaluating how well a model captures idiomatic meanings, and define a set of fine-grained metrics of Affinity and Scaled Similarity, to determine how sensitive the models are to perturbations that may lead to changes in idiomaticity. The results obtained with a variety of representative and widely used models indicate that, despite superficial indications to the contrary in the form of high similarities, idiomaticity is not yet accurately represented in current models. Moreover, the performance of models with different levels of contextualisation suggests that their ability to capture context is not yet able to go beyond more superficial lexical clues provided by the words and to actually incorporate the relevant semantic clues needed for idiomaticity.
- Abstract(参考訳): 慣用的な表現は人間の言語の不可欠な部分であり、しばしば圧縮されたり伝統的な方法で複雑な考えを表現するために使われる(例えば熱心で熱狂的な人としての熱心なビーバー)。
しかし、それらの解釈は個別の構成要素の意味と直接的に結びついておらず、構成的アプローチに影響を及ぼす可能性がある。
本稿では, 単語表現モデルが, 合成語の組み合わせを超えて, 複数単語表現の慣用性や, 慣用的意味に関連するいくつかの特性を捉えることができるかを検討する。
2つの言語(英語とポルトガル語)において、各名詞のタイプおよびトークンレベルでのヒトの慣用性判定を含む最小ペアのデータセット、それらのパラフレーズおよびそれらの自然的・感覚ニュートラルな文脈におけるそれらの出現について、32,200の文を提示する。
本稿では,モデルが慣用的意味をどの程度捉えているかを評価するための最小対のセットを提案し,そのモデルが摂動にどれほど敏感であるかを判断するために,親和性とスケールド類似性の詳細な指標のセットを定義する。
様々な代表的および広く使用されているモデルを用いて得られた結果は、高い類似性の形で表裏に表わされるにもかかわらず、慣用性はまだ現在のモデルでは正確に表現されていないことを示している。
さらに、文脈化のレベルが異なるモデルの性能は、文脈を捉える能力が、単語によって提供されるより表面的な語彙的手がかりを超え、慣用性に必要な意味的手がかりを実際に組み込むことができないことを示唆している。
関連論文リスト
- Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
スペイン語の単言語モデルと多言語BERTモデルを用いて、文脈におけるスペイン語のあいまいな名詞の意味表現を評価する。
様々な BERT ベースの LM の文脈的意味表現は、人間の判断に多少の違いがあるが、ヒトのベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - Contextualized word senses: from attention to compositionality [0.10878040851637999]
本稿では,文脈感覚を符号化する透過的,解釈可能,言語的に動機づけられた戦略を提案する。
特に依存関係や選択選好やパラダイムクラスといった意味概念に注意が向けられる。
論文 参考訳(メタデータ) (2023-12-01T16:04:00Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文 参考訳(メタデータ) (2021-10-19T15:44:28Z) - Patterns of Lexical Ambiguity in Contextualised Language Models [9.747449805791092]
本稿では,単語感覚の類似度と共述度を拡張した,人間による注釈付きデータセットを提案する。
どちらの人間の判断も、多文解釈の類似性は意味の同一性とホモニミーの連続性にあることを示している。
我々のデータセットは、語彙的曖昧性の複雑さの大部分を捉えており、文脈的埋め込みのための現実的なテストベッドを提供することができる。
論文 参考訳(メタデータ) (2021-09-27T13:11:44Z) - Exploring the Representation of Word Meanings in Context: A Case Study
on Homonymy and Synonymy [0.0]
我々は,静的モデルと文脈モデルの両方が,語彙-意味関係を適切に表現できる能力を評価する。
実験はガリシア語、ポルトガル語、英語、スペイン語で行われている。
論文 参考訳(メタデータ) (2021-06-25T10:54:23Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。