論文の概要: EXECUTE: A Multilingual Benchmark for LLM Token Understanding
- arxiv url: http://arxiv.org/abs/2505.17784v1
- Date: Fri, 23 May 2025 11:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.044153
- Title: EXECUTE: A Multilingual Benchmark for LLM Token Understanding
- Title(参考訳): EXECUTE: LLMトークン理解のための多言語ベンチマーク
- Authors: Lukas Edman, Helmut Schmid, Alexander Fraser,
- Abstract要約: 複数の言語にまたがるテストでは、他の言語の課題が英語のように常に文字レベルにあるとは限らないことが分かる。
また、中国語、日本語、韓国語のサブ文字タスクについても検討し、LLMの文字成分に対する理解を評価する。
- 参考スコア(独自算出の注目度): 54.70665106141121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The CUTE benchmark showed that LLMs struggle with character understanding in English. We extend it to more languages with diverse scripts and writing systems, introducing EXECUTE. Our simplified framework allows easy expansion to any language. Tests across multiple LLMs reveal that challenges in other languages are not always on the character level as in English. Some languages show word-level processing issues, some show no issues at all. We also examine sub-character tasks in Chinese, Japanese, and Korean to assess LLMs' understanding of character components.
- Abstract(参考訳): CUTEベンチマークは、LLMが英語の文字理解に苦戦していることを示している。
EXECUTEを導入して,多種多様なスクリプトや記述システムを備えた言語に拡張する。
単純化されたフレームワークはどんな言語にも簡単に拡張できます。
複数のLSMをまたいだテストでは、他の言語の課題は英語のように文字レベルに必ずしも達していないことが明らかになった。
単語レベルの処理の問題を示す言語もあるが、問題がない言語もある。
また、中国語、日本語、韓国語のサブ文字タスクについても検討し、LLMの文字成分に対する理解を評価する。
関連論文リスト
- Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean [8.072947878765941]
KoGEMは韓国のLLMと人間の言語能力を評価するために設計された。
5つの主要なカテゴリと16のサブカテゴリを含む1.5kの多重選択QAペアで構成されている。
論文 参考訳(メタデータ) (2025-06-02T01:27:46Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - LLMs' Understanding of Natural Language Revealed [0.0]
大規模言語モデル(LLM)は、大規模言語におけるボトムアップ、データ駆動のリバースエンジニアリングにおける大規模な実験の結果である。
私たちはLLMの言語理解能力、彼らが想定する砦をテストすることに重点を置きます。
論文 参考訳(メタデータ) (2024-07-29T01:21:11Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。