論文の概要: Language Diversity: Visible to Humans, Exploitable by Machines
- arxiv url: http://arxiv.org/abs/2203.04723v1
- Date: Wed, 9 Mar 2022 14:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 15:17:55.347618
- Title: Language Diversity: Visible to Humans, Exploitable by Machines
- Title(参考訳): 言語多様性:人間に可視で、機械で爆発する
- Authors: G\'abor Bella, Erdenebileg Byambadorj, Yamini Chandrashekar,
Khuyagbaatar Batsuren, Danish Ashgar Cheema, Fausto Giunchiglia
- Abstract要約: UKCのWebサイトでは、何百万もの個々の単語とその意味を探索できる。
UKC LiveLanguage Catalogueは、コンピュータ処理可能な形式で、基礎となる語彙データへのアクセスを提供する。
- 参考スコア(独自算出の注目度): 6.0111449785499484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Universal Knowledge Core (UKC) is a large multilingual lexical database
with a focus on language diversity and covering over a thousand languages. The
aim of the database, as well as its tools and data catalogue, is to make the
somewhat abstract notion of diversity visually understandable for humans and
formally exploitable by machines. The UKC website lets users explore millions
of individual words and their meanings, but also phenomena of cross-lingual
convergence and divergence, such as shared interlingual meanings, lexicon
similarities, cognate clusters, or lexical gaps. The UKC LiveLanguage
Catalogue, in turn, provides access to the underlying lexical data in a
computer-processable form, ready to be reused in cross-lingual applications.
- Abstract(参考訳): ユニバーサル・ナレッジ・コア (Universal Knowledge Core, UKC) は、言語多様性と数千以上の言語をカバーする多言語語彙データベースである。
データベースとそのツールとデータカタログの目的は、多様性というやや抽象的な概念を人間にとって視覚的に理解し、マシンによって公式に活用できるようにすることである。
UKCのWebサイトでは、何百万もの個々の単語とその意味を探索できるだけでなく、共通言語間の意味、語彙の類似性、コグネートクラスタ、語彙的ギャップなど、言語間収束とばらつきの現象も見られる。
ukc livelanguage catalogは、コンピュータ処理可能な形式の語彙データへのアクセスを提供し、言語横断アプリケーションで再利用できるようにしている。
関連論文リスト
- Variationist: Exploring Multifaceted Variation and Bias in Written Language Data [3.666781404469562]
言語データの探索と理解は、人間の言語を扱うあらゆる分野において、基本的な段階である。
しかし現時点では、言語の変化とバイアスをシームレスに検査し視覚化する、統一的でカスタマイズ可能なツールが欠如している。
本稿では、このギャップを埋める高度にモジュラーで記述的でタスクに依存しないツールである「変分主義」を紹介する。
論文 参考訳(メタデータ) (2024-06-25T15:41:07Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Lexical Diversity in Kinship Across Languages and Dialects [6.80465507148218]
本稿では,言語多様性に関する内容と計算語彙を融合させる手法を提案する。
本手法は、血縁用語に関する2つの大規模ケーススタディを通じて検証される。
論文 参考訳(メタデータ) (2023-08-24T19:49:30Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Representing Interlingual Meaning in Lexical Databases [5.654039329474587]
既存の語彙データベースには、文化的特化語に対する表現性が低下する構造的制限があることを示す。
特に、英語のような支配的な言語の語彙的意味空間はより正確に表現され、言語的または文化的に多様な言語は近似的にマッピングされる。
論文 参考訳(メタデータ) (2023-01-22T17:41:29Z) - The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。