論文の概要: Multi-lingual and Multi-cultural Figurative Language Understanding
- arxiv url: http://arxiv.org/abs/2305.16171v1
- Date: Thu, 25 May 2023 15:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:19:59.426512
- Title: Multi-lingual and Multi-cultural Figurative Language Understanding
- Title(参考訳): 多言語・多文化図形言語理解
- Authors: Anubha Kabra, Emmy Liu, Simran Khanuja, Alham Fikri Aji, Genta Indra
Winata, Samuel Cahyawijaya, Anuoluwapo Aremu, Perez Ogayo, Graham Neubig
- Abstract要約: 図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
- 参考スコア(独自算出の注目度): 69.47641938200817
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Figurative language permeates human communication, but at the same time is
relatively understudied in NLP. Datasets have been created in English to
accelerate progress towards measuring and improving figurative language
processing in language models (LMs). However, the use of figurative language is
an expression of our cultural and societal experiences, making it difficult for
these phrases to be universally applicable. In this work, we create a
figurative language inference dataset, \datasetname, for seven diverse
languages associated with a variety of cultures: Hindi, Indonesian, Javanese,
Kannada, Sundanese, Swahili and Yoruba. Our dataset reveals that each language
relies on cultural and regional concepts for figurative expressions, with the
highest overlap between languages originating from the same region. We assess
multilingual LMs' abilities to interpret figurative language in zero-shot and
few-shot settings. All languages exhibit a significant deficiency compared to
English, with variations in performance reflecting the availability of
pre-training and fine-tuning data, emphasizing the need for LMs to be exposed
to a broader range of linguistic and cultural variation during training.
- Abstract(参考訳): 図形言語は人間のコミュニケーションに浸透するが、同時にNLPでは比較的過小評価されている。
言語モデル(LM)における図形言語処理の測定と改善に向けた進歩を加速するために、データセットが英語で作成されている。
しかし、フィギュラティブ言語の使用は、我々の文化的・社会的な経験の表現であり、これらのフレーズを普遍的に適用することは困難である。
本研究では,ヒンディー語,インドネシア語,ジャワ語,カンナダ語,スンダ語,スワヒリ語,ヨルバ語など,さまざまな文化に関連する7つの言語を対象に,図式的言語推論データセット「datasetname」を構築した。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
ゼロショットおよび少数ショット設定で図形言語を解釈する多言語LMの能力を評価する。
すべての言語は英語に比べて著しく不足しており、事前学習と微調整データの可用性を反映したパフォーマンスのバリエーションがあり、訓練中に幅広い言語的・文化的変化にlmsを露出させる必要性を強調している。
関連論文リスト
- Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - The Echoes of Multilinguality: Tracing Cultural Value Shifts during LM Fine-tuning [23.418656688405605]
本研究では, 異なるテスト言語で符号化された文化的価値に言語がどのように影響するかを, 微調整時にどのように修正されるかを検討する。
最後に、トレーニングデータ属性法を用いて、微調整の例やそれらが生み出す言語にパターンを見つける。
論文 参考訳(メタデータ) (2024-05-21T12:55:15Z) - Phylogeny-Inspired Adaptation of Multilingual Models to New Languages [43.62238334380897]
我々は、言語系統情報を用いて、密接に関連する言語を活用する言語間移動を改善する方法を示す。
我々は,多言語(ゲルマン語,ウルリック語,トゥピ語,ウト・アステカン語)の言語をアダプタベースで学習し,構文的・意味的タスクの評価を行う。
論文 参考訳(メタデータ) (2022-05-19T15:49:19Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。