論文の概要: EXECUTE: A Multilingual Benchmark for LLM Token Understanding
- arxiv url: http://arxiv.org/abs/2505.17784v1
- Date: Fri, 23 May 2025 11:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.044153
- Title: EXECUTE: A Multilingual Benchmark for LLM Token Understanding
- Title(参考訳): EXECUTE: LLMトークン理解のための多言語ベンチマーク
- Authors: Lukas Edman, Helmut Schmid, Alexander Fraser,
- Abstract要約: 複数の言語にまたがるテストでは、他の言語の課題が英語のように常に文字レベルにあるとは限らないことが分かる。
また、中国語、日本語、韓国語のサブ文字タスクについても検討し、LLMの文字成分に対する理解を評価する。
- 参考スコア(独自算出の注目度): 54.70665106141121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The CUTE benchmark showed that LLMs struggle with character understanding in English. We extend it to more languages with diverse scripts and writing systems, introducing EXECUTE. Our simplified framework allows easy expansion to any language. Tests across multiple LLMs reveal that challenges in other languages are not always on the character level as in English. Some languages show word-level processing issues, some show no issues at all. We also examine sub-character tasks in Chinese, Japanese, and Korean to assess LLMs' understanding of character components.
- Abstract(参考訳): CUTEベンチマークは、LLMが英語の文字理解に苦戦していることを示している。
EXECUTEを導入して,多種多様なスクリプトや記述システムを備えた言語に拡張する。
単純化されたフレームワークはどんな言語にも簡単に拡張できます。
複数のLSMをまたいだテストでは、他の言語の課題は英語のように文字レベルに必ずしも達していないことが明らかになった。
単語レベルの処理の問題を示す言語もあるが、問題がない言語もある。
また、中国語、日本語、韓国語のサブ文字タスクについても検討し、LLMの文字成分に対する理解を評価する。
関連論文リスト
- CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。