論文の概要: Leveraging a New Spanish Corpus for Multilingual and Crosslingual
Metaphor Detection
- arxiv url: http://arxiv.org/abs/2210.10358v1
- Date: Wed, 19 Oct 2022 07:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:10:42.156400
- Title: Leveraging a New Spanish Corpus for Multilingual and Crosslingual
Metaphor Detection
- Title(参考訳): 多言語・多言語メタファー検出のための新しいスペイン語コーパスの活用
- Authors: Elisa Sanchez-Bayona, Rodrigo Agerri
- Abstract要約: この研究は、スペインで自然に出現するメタファで注釈付けされた最初のコーパスを示し、メタファ検出を行うシステムを開発するのに十分である。
提示されたデータセットであるCoMetaには、ニュース、政治談話、ウィキペディア、レビューなど、さまざまな分野のテキストが含まれている。
- 参考スコア(独自算出の注目度): 5.9647924003148365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of wide coverage datasets annotated with everyday metaphorical
expressions for languages other than English is striking. This means that most
research on supervised metaphor detection has been published only for that
language. In order to address this issue, this work presents the first corpus
annotated with naturally occurring metaphors in Spanish large enough to develop
systems to perform metaphor detection. The presented dataset, CoMeta, includes
texts from various domains, namely, news, political discourse, Wikipedia and
reviews. In order to label CoMeta, we apply the MIPVU method, the guidelines
most commonly used to systematically annotate metaphor on real data. We use our
newly created dataset to provide competitive baselines by fine-tuning several
multilingual and monolingual state-of-the-art large language models.
Furthermore, by leveraging the existing VUAM English data in addition to
CoMeta, we present the, to the best of our knowledge, first cross-lingual
experiments on supervised metaphor detection. Finally, we perform a detailed
error analysis that explores the seemingly high transfer of everyday metaphor
across these two languages and datasets.
- Abstract(参考訳): 英語以外の言語の日常的なメタファ表現に注釈が付された広範なカバレッジデータセットの欠如は目覚しい。
これは、教師付きメタファー検出に関するほとんどの研究が、その言語のためにのみ公表されていることを意味する。
この問題に対処するため,本研究では,スペイン語で自然に出現するメタファーをアノテートした最初のコーパスを提示し,メタファー検出を行うシステムを開発する。
提示されたデータセットであるCoMetaには、ニュース、政治談話、ウィキペディア、レビューなど、さまざまな分野のテキストが含まれている。
cometaをラベル付けるために,実データに対するメタファを体系的にアノテートするために最も一般的に使用されるガイドラインであるmipvu法を適用した。
我々は新たに作成したデータセットを用いて、複数の多言語およびモノリンガルな大言語モデルを微調整することで、競争力のあるベースラインを提供する。
さらに、既存のVUAMの英語データをCoMetaに加えて活用することにより、私たちの知識の最大限に活用し、教師付き比喩検出に関する最初の言語横断実験を行う。
最後に、これらの2つの言語とデータセット間の日常的な比喩の高い移動を探索する詳細なエラー解析を行う。
関連論文リスト
- A framework for annotating and modelling intentions behind metaphor use [12.40493670580608]
本稿では,9つのカテゴリーから構成されるメタファーに起因した意図の新たな分類法を提案する。
また、メタファの使用の背後にある意図に注釈を付けた最初のデータセットもリリースしました。
このデータセットを用いて、メタファー使用の背景にある意図を、ゼロテキストおよびインコンテキストの少数ショット設定で推測する際の、大きな言語モデル(LLM)の機能をテストする。
論文 参考訳(メタデータ) (2024-07-04T14:13:57Z) - Meta4XNLI: A Crosslingual Parallel Corpus for Metaphor Detection and Interpretation [6.0158981171030685]
本稿ではスペイン語と英語の両方でメタファアノテーションを含むメタファ検出と解釈のタスクのための新しい並列データセットを提案する。
言語モデルのメタファ識別と理解能力について,一言語間実験と言語間実験による検討を行った。
論文 参考訳(メタデータ) (2024-04-10T14:44:48Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - M2SA: Multimodal and Multilingual Model for Sentiment Analysis of Tweets [4.478789600295492]
本稿では,既存のテキスト型Twitter感情データセットを,簡単なキュレーションプロセスを通じてマルチモーダルフォーマットに変換する。
本研究は,研究コミュニティにおける感情関連研究の新たな道を開くものである。
論文 参考訳(メタデータ) (2024-04-02T09:11:58Z) - Metaphors in Pre-Trained Language Models: Probing and Generalization
Across Datasets and Languages [6.7126373378083715]
大規模事前学習言語モデル(PLM)は、NLPシステムに有用な比喩的知識を符号化する。
本稿では,複数のメタファ検出データセットと4言語について研究する。
実験の結果,PLMにおける文脈表現はメタファー的知識をコード化しており,その大部分は中層にあることが示唆された。
論文 参考訳(メタデータ) (2022-03-26T19:05:24Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。