論文の概要: Metaphors in Pre-Trained Language Models: Probing and Generalization
Across Datasets and Languages
- arxiv url: http://arxiv.org/abs/2203.14139v1
- Date: Sat, 26 Mar 2022 19:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:10:42.076228
- Title: Metaphors in Pre-Trained Language Models: Probing and Generalization
Across Datasets and Languages
- Title(参考訳): 事前学習言語モデルにおけるメタファー:データセットと言語間の探索と一般化
- Authors: Ehsan Aghazadeh, Mohsen Fayyaz, Yadollah Yaghoobzadeh
- Abstract要約: 大規模事前学習言語モデル(PLM)は、NLPシステムに有用な比喩的知識を符号化する。
本稿では,複数のメタファ検出データセットと4言語について研究する。
実験の結果,PLMにおける文脈表現はメタファー的知識をコード化しており,その大部分は中層にあることが示唆された。
- 参考スコア(独自算出の注目度): 6.7126373378083715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human languages are full of metaphorical expressions. Metaphors help people
understand the world by connecting new concepts and domains to more familiar
ones. Large pre-trained language models (PLMs) are therefore assumed to encode
metaphorical knowledge useful for NLP systems. In this paper, we investigate
this hypothesis for PLMs, by probing metaphoricity information in their
encodings, and by measuring the cross-lingual and cross-dataset generalization
of this information. We present studies in multiple metaphor detection datasets
and in four languages (i.e., English, Spanish, Russian, and Farsi). Our
extensive experiments suggest that contextual representations in PLMs do encode
metaphorical knowledge, and mostly in their middle layers. The knowledge is
transferable between languages and datasets, especially when the annotation is
consistent across training and testing sets. Our findings give helpful insights
for both cognitive and NLP scientists.
- Abstract(参考訳): 人間の言語は比喩的な表現でいっぱいです。
メタファーは、新しい概念とドメインをより親しみやすいものに結びつけることで、世界を理解するのに役立つ。
したがって、PLM (Large Pre-trained Language Model) は、NLPシステムに有用な比喩的知識を符号化する。
本稿では, PLM に対するこの仮説を, 符号化における比喩情報を探索し, 言語間およびデータセット間の一般化を計測することによって検討する。
複数のメタファー検出データセットと4つの言語(英語、スペイン語、ロシア語、Farsi)で研究を行っている。
広範な実験から,plmにおける文脈表現はメタファ的知識をエンコードしており,そのほとんどは中間層であることが示唆された。
知識は言語とデータセット間で転送可能で、特にアノテーションがトレーニングとテストセット間で一貫性がある場合です。
本研究は認知科学者とNLP研究者の両方に有用な知見を与える。
関連論文リスト
- A framework for annotating and modelling intentions behind metaphor use [12.40493670580608]
本稿では,9つのカテゴリーから構成されるメタファーに起因した意図の新たな分類法を提案する。
また、メタファの使用の背後にある意図に注釈を付けた最初のデータセットもリリースしました。
このデータセットを用いて、メタファー使用の背景にある意図を、ゼロテキストおよびインコンテキストの少数ショット設定で推測する際の、大きな言語モデル(LLM)の機能をテストする。
論文 参考訳(メタデータ) (2024-07-04T14:13:57Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Meta4XNLI: A Crosslingual Parallel Corpus for Metaphor Detection and Interpretation [6.0158981171030685]
本稿ではスペイン語と英語の両方でメタファアノテーションを含むメタファ検出と解釈のタスクのための新しい並列データセットを提案する。
言語モデルのメタファ識別と理解能力について,一言語間実験と言語間実験による検討を行った。
論文 参考訳(メタデータ) (2024-04-10T14:44:48Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - SocioProbe: What, When, and Where Language Models Learn about
Sociodemographics [31.040600510190732]
複数の英語データセットにおける事前学習言語モデル(PLM)の社会デマログラフ的知識について検討する。
以上の結果から, PLMはこれらの社会デマトグラフィーを符号化しており, この知識は, テスト対象のPLMの層に分散していることが示唆された。
以上の結果から,社会学的な知識がNLPにとって依然として大きな課題であることが示唆された。
論文 参考訳(メタデータ) (2022-11-08T14:37:45Z) - Leveraging a New Spanish Corpus for Multilingual and Crosslingual
Metaphor Detection [5.9647924003148365]
この研究は、スペインで自然に出現するメタファで注釈付けされた最初のコーパスを示し、メタファ検出を行うシステムを開発するのに十分である。
提示されたデータセットであるCoMetaには、ニュース、政治談話、ウィキペディア、レビューなど、さまざまな分野のテキストが含まれている。
論文 参考訳(メタデータ) (2022-10-19T07:55:36Z) - Locating Language-Specific Information in Contextualized Embeddings [2.836066255205732]
多言語事前訓練言語モデル(MPLM)は多言語性を示し、言語間の移動に適している。
MPLM表現が言語に依存しないのか、それとも単に学習したタスク予測ヘッドとインターリーブするだけなのかが問題となる。
言語固有の情報をMPLM内に配置し,その次元と,その発生する層を識別する。
論文 参考訳(メタデータ) (2021-09-16T15:11:55Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。