論文の概要: Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing
- arxiv url: http://arxiv.org/abs/2501.09127v1
- Date: Wed, 15 Jan 2025 20:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:47.779137
- Title: Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing
- Title(参考訳): バイリンガル語処理におけるオーソグラフィーとセマンティックスをリンクする多言語LLM
- Authors: Eshaan Tanwar, Gayatri Oke, Tanmoy Chakraborty,
- Abstract要約: 本研究は、英語・スペイン語・英語・フランス語・英語・ドイツ語のコニャート、非コニャート、および言語間ホモグラフに焦点を当てる。
我々は,多言語大言語モデル (LLM) がこのような現象にどう対処するかを,英語・スペイン語・英語・フランス語・英語・ドイツ語のコニャート,非コニャート,言語間ホモグラフに焦点をあてて評価する。
我々は、英語と非英語のホモグラフを理解するための異なる戦略を選択するモデルを見つけ、言語間のあいまいさを扱う統一的なアプローチが欠如していることを強調した。
- 参考スコア(独自算出の注目度): 19.6191088446367
- License:
- Abstract: Bilingual lexical processing is shaped by the complex interplay of phonological, orthographic, and semantic features of two languages within an integrated mental lexicon. In humans, this is evident in the ease with which cognate words - words similar in both orthographic form and meaning (e.g., blind, meaning "sightless" in both English and German) - are processed, compared to the challenges posed by interlingual homographs, which share orthographic form but differ in meaning (e.g., gift, meaning "present" in English but "poison" in German). We investigate how multilingual Large Language Models (LLMs) handle such phenomena, focusing on English-Spanish, English-French, and English-German cognates, non-cognate, and interlingual homographs. Specifically, we evaluate their ability to disambiguate meanings and make semantic judgments, both when these word types are presented in isolation or within sentence contexts. Our findings reveal that while certain LLMs demonstrate strong performance in recognizing cognates and non-cognates in isolation, they exhibit significant difficulty in disambiguating interlingual homographs, often performing below random baselines. This suggests LLMs tend to rely heavily on orthographic similarities rather than semantic understanding when interpreting interlingual homographs. Further, we find LLMs exhibit difficulty in retrieving word meanings, with performance in isolative disambiguation tasks having no correlation with semantic understanding. Finally, we study how the LLM processes interlingual homographs in incongruent sentences. We find models to opt for different strategies in understanding English and non-English homographs, highlighting a lack of a unified approach to handling cross-lingual ambiguities.
- Abstract(参考訳): バイリンガル語彙処理は、統合された精神語彙の中の2つの言語の音韻論的、正書法的、意味的な特徴の複雑な相互作用によって形成される。
人間では、コグネートな単語(英: cognate words) - 正書法と意味(英: blind、英: "sightless")の両方に類似した単語(英: "eg , blind"、英語: "sightless")が、正書法とドイツ語で"poison"を意味する"g , gift"、英語では"present"、ドイツ語では"poison")を共有するが、言語間ホモグラフによって引き起こされる課題と比較して、処理される容易さは明らかである。
我々は,多言語大言語モデル (LLM) がこのような現象にどう対処するかを考察し,英語・スペイン語・英語・フランス語・英語・ドイツ語のコニャート,非コニャート,および言語間ホモグラフに着目した。
具体的には, 意味を曖昧にし, 意味判断を行う能力を評価する。
以上の結果より,特定のLDMは,コニャートや非コニャートを単独で認識する上で高い性能を示したが,言語間ホモグラフの曖昧化には著しく困難であり,しばしばランダムなベースライン以下で機能することが示唆された。
このことは、LLMは言語間ホモグラフを解釈する際に意味的理解よりも正書法的な類似性に大きく依存する傾向があることを示唆している。
さらに,LLMは単語の意味を検索するのに困難であり,意味理解と相関関係のない分離的曖昧化タスクのパフォーマンスを示す。
最後に,LLMが不一致文の言語間ホモグラフをどのように処理するかを検討する。
我々は、英語と非英語のホモグラフを理解するための異なる戦略を選択するモデルを見つけ、言語間のあいまいさを扱う統一的なアプローチが欠如していることを強調した。
関連論文リスト
- Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models [15.857451401890092]
我々はLarge Language Models(LLMs)の内部言語表現を探索するために、言語最小ペアを活用する。
3つの言語で100以上のLLMと150k以上の最小ペアにまたがる大規模な実験では、4つの重要な側面から言語的類似性の特性を明らかにした。
論文 参考訳(メタデータ) (2024-09-19T03:29:40Z) - Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
スペイン語の単言語モデルと多言語BERTモデルを用いて、文脈におけるスペイン語のあいまいな名詞の意味表現を評価する。
様々な BERT ベースの LM の文脈的意味表現は、人間の判断に多少の違いがあるが、ヒトのベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。