論文の概要: Lexical Diversity in Kinship Across Languages and Dialects
- arxiv url: http://arxiv.org/abs/2308.13056v2
- Date: Thu, 26 Oct 2023 12:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 01:06:33.904771
- Title: Lexical Diversity in Kinship Across Languages and Dialects
- Title(参考訳): 言語と方言間の血縁関係の語彙的多様性
- Authors: Hadi Khalilia, G\'abor Bella, Abed Alhakim Freihat, Shandy Darma,
Fausto Giunchiglia
- Abstract要約: 本稿では,言語多様性に関する内容と計算語彙を融合させる手法を提案する。
本手法は、血縁用語に関する2つの大規模ケーススタディを通じて検証される。
- 参考スコア(独自算出の注目度): 6.80465507148218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Languages are known to describe the world in diverse ways. Across lexicons,
diversity is pervasive, appearing through phenomena such as lexical gaps and
untranslatability. However, in computational resources, such as multilingual
lexical databases, diversity is hardly ever represented. In this paper, we
introduce a method to enrich computational lexicons with content relating to
linguistic diversity. The method is verified through two large-scale case
studies on kinship terminology, a domain known to be diverse across languages
and cultures: one case study deals with seven Arabic dialects, while the other
one with three Indonesian languages. Our results, made available as browseable
and downloadable computational resources, extend prior linguistics research on
kinship terminology, and provide insight into the extent of diversity even
within linguistically and culturally close communities.
- Abstract(参考訳): 言語は様々な方法で世界を記述することが知られている。
語彙全体にわたって多様性は広がり、語彙的ギャップや非翻訳性のような現象を通して現れる。
しかし、多言語語彙データベースのような計算資源では、多様性はほとんど表現されない。
本稿では,言語多様性に関する内容の計算レキシコンを充実させる手法を提案する。
1つのケーススタディは7つのアラビア語方言を扱っており、もう1つのケーススタディは3つのインドネシア語を扱っている。
本研究は, 閲覧可能かつダウンロード可能な計算資源として提供され, キンシップ用語に関する先行言語研究を拡張し, 言語的および文化的に密接なコミュニティにおいても多様性の範囲に関する洞察を提供する。
関連論文リスト
- Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Representing Interlingual Meaning in Lexical Databases [5.654039329474587]
既存の語彙データベースには、文化的特化語に対する表現性が低下する構造的制限があることを示す。
特に、英語のような支配的な言語の語彙的意味空間はより正確に表現され、言語的または文化的に多様な言語は近似的にマッピングされる。
論文 参考訳(メタデータ) (2023-01-22T17:41:29Z) - Using Linguistic Typology to Enrich Multilingual Lexicons: the Case of
Lexical Gaps in Kinship [4.970603969125883]
語彙的ギャップと言語固有の単語という概念を通して多様性の現象を捉えている。
我々は,198のドメイン概念,1,911のワード,37,370のギャップからなる語彙意味資源を公開している。
論文 参考訳(メタデータ) (2022-04-11T12:36:26Z) - Language Diversity: Visible to Humans, Exploitable by Machines [6.0111449785499484]
UKCのWebサイトでは、何百万もの個々の単語とその意味を探索できる。
UKC LiveLanguage Catalogueは、コンピュータ処理可能な形式で、基礎となる語彙データへのアクセスを提供する。
論文 参考訳(メタデータ) (2022-03-09T14:04:16Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。