論文の概要: Representing Interlingual Meaning in Lexical Databases
- arxiv url: http://arxiv.org/abs/2301.09169v1
- Date: Sun, 22 Jan 2023 17:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:48:02.376064
- Title: Representing Interlingual Meaning in Lexical Databases
- Title(参考訳): 語彙データベースにおける言語間意味表現
- Authors: Fausto Giunchiglia, Gabor Bella, Nandu Chandran Nair, Yang Chi, Hao Xu
- Abstract要約: 既存の語彙データベースには、文化的特化語に対する表現性が低下する構造的制限があることを示す。
特に、英語のような支配的な言語の語彙的意味空間はより正確に表現され、言語的または文化的に多様な言語は近似的にマッピングされる。
- 参考スコア(独自算出の注目度): 5.654039329474587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In today's multilingual lexical databases, the majority of the world's
languages are under-represented. Beyond a mere issue of resource
incompleteness, we show that existing lexical databases have structural
limitations that result in a reduced expressivity on culturally-specific words
and in mapping them across languages. In particular, the lexical meaning space
of dominant languages, such as English, is represented more accurately while
linguistically or culturally diverse languages are mapped in an approximate
manner. Our paper assesses state-of-the-art multilingual lexical databases and
evaluates their strengths and limitations with respect to their expressivity on
lexical phenomena of linguistic diversity.
- Abstract(参考訳): 今日の多言語語彙データベースでは、世界の言語の大部分は表現不足である。
資源不完全性の問題以外にも、既存の語彙データベースには、文化的特化語に対する表現性が低下し、言語間でマッピングされる構造的制限があることが示される。
特に、英語のような支配的な言語の語彙的意味空間はより正確に表現され、言語的または文化的に多様な言語は近似的にマッピングされる。
本稿では,言語多様性の語彙現象に対する表現性に関して,最先端の多言語語彙データベースを評価し,その強みと限界を評価する。
関連論文リスト
- Lexical Diversity in Kinship Across Languages and Dialects [6.80465507148218]
本稿では,言語多様性に関する内容と計算語彙を融合させる手法を提案する。
本手法は、血縁用語に関する2つの大規模ケーススタディを通じて検証される。
論文 参考訳(メタデータ) (2023-08-24T19:49:30Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Massively Multilingual Lexical Specialization of Multilingual
Transformers [18.766379322798837]
本稿では,2つの標準言語間語彙タスクにおいて,多言語レキシカル特殊化が著しく向上することを示す。
我々は,語彙制約のない言語への多言語語彙の特殊化によって一般化できることを示唆し,特殊化に欠かせない言語に対するゲインを観察する。
論文 参考訳(メタデータ) (2022-08-01T17:47:03Z) - The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Language Diversity: Visible to Humans, Exploitable by Machines [6.0111449785499484]
UKCのWebサイトでは、何百万もの個々の単語とその意味を探索できる。
UKC LiveLanguage Catalogueは、コンピュータ処理可能な形式で、基礎となる語彙データへのアクセスを提供する。
論文 参考訳(メタデータ) (2022-03-09T14:04:16Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。