論文の概要: Why Do Large Language Models (LLMs) Struggle to Count Letters?
- arxiv url: http://arxiv.org/abs/2412.18626v1
- Date: Thu, 19 Dec 2024 22:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 21:12:42.133188
- Title: Why Do Large Language Models (LLMs) Struggle to Count Letters?
- Title(参考訳): 大規模言語モデル (LLM) はなぜ文字を数えるのか?
- Authors: Tairan Fu, Raquel Ferrando, Javier Conde, Carlos Arriaga, Pedro Reviriego,
- Abstract要約: 大規模言語モデル(LLM)は多くの複雑なタスクにおいて前例のない性能を達成した。
彼らは、単語中の文字の発生を数えるなど、他の単純なタスクと苦労する。
- 参考スコア(独自算出の注目度): 2.8367942280334493
- License:
- Abstract: Large Language Models (LLMs) have achieved unprecedented performance on many complex tasks, being able, for example, to answer questions on almost any topic. However, they struggle with other simple tasks, such as counting the occurrences of letters in a word, as illustrated by the inability of many LLMs to count the number of "r" letters in "strawberry". Several works have studied this problem and linked it to the tokenization used by LLMs, to the intrinsic limitations of the attention mechanism, or to the lack of character-level training data. In this paper, we conduct an experimental study to evaluate the relations between the LLM errors when counting letters with 1) the frequency of the word and its components in the training dataset and 2) the complexity of the counting operation. We present a comprehensive analysis of the errors of LLMs when counting letter occurrences by evaluating a representative group of models over a large number of words. The results show a number of consistent trends in the models evaluated: 1) models are capable of recognizing the letters but not counting them; 2) the frequency of the word and tokens in the word does not have a significant impact on the LLM errors; 3) there is a positive correlation of letter frequency with errors, more frequent letters tend to have more counting errors, 4) the errors show a strong correlation with the number of letters or tokens in a word and 5) the strongest correlation occurs with the number of letters with counts larger than one, with most models being unable to correctly count words in which letters appear more than twice.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの複雑なタスクにおいて前例のないパフォーマンスを達成した。
しかし、多くの LLM が "strwberry" で "r" 文字の数を数えることができず、単語中の文字の出現を数えることなど、他の単純なタスクと競合する。
いくつかの研究がこの問題を研究し、LLMが使用するトークン化、注意機構の固有の制限、あるいは文字レベルのトレーニングデータの欠如に関連付けている。
本稿では,文字数をカウントする際のLLM誤差の関係を実験的に評価する。
1)訓練データセットにおける単語とその構成要素の頻度と
2)カウント操作の複雑さ。
本稿では,多数の単語にまたがるモデルの代表的なグループを評価することで,文字発生をカウントする際のLLMの誤りを包括的に解析する。
結果は、評価されたモデルにおいて、いくつかの一貫した傾向を示している。
1) モデルは,文字を認識することができるが,それを数えることができない。
2) 単語及びトークンの頻度は,LLMエラーに大きく影響しない。
3) 文字頻度と誤りとの間には正の相関関係があり, より頻繁な文字は誤り数が多い傾向にある。
4) 誤りは単語中の文字数やトークン数と強い相関を示す。
5) 最強の相関は、文字数が1より大きい文字の数で発生し、ほとんどのモデルは、文字が2回以上現れる単語を正確にカウントできない。
関連論文リスト
- On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Language Models Encode Numbers Using Digit Representations in Base 10 [12.913172023910203]
大規模言語モデル (LLM) は, 1桁あたりの個々の円周表現を持つ数値を内在的に表現することを示す。
この数値表現は、数値推論を含むタスクにおけるモデルの誤りパターンに光を当てる。
論文 参考訳(メタデータ) (2024-10-15T17:00:15Z) - MLissard: Multilingual Long and Simple Sequential Reasoning Benchmarks [10.39816548971042]
言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。
しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。
MLissardは、様々な長さのテキストを処理および生成するモデルの能力を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-10-08T21:59:31Z) - From Tokens to Words: On the Inner Lexicon of LLMs [7.148628740938674]
自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。
本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。
以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-08T09:53:35Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Can LLMs perform structured graph reasoning? [4.676784872259775]
LLM(Pretrained Large Language Models)は、言語ベースのプロンプトだけで様々な推論能力を示す。
本稿では,半構造化タスクのプロキシとして,様々なグラフ推論タスクを設計する。
上記の課題に対して,5種類のインストラクト微細化LDM (GPT-4, GPT-3.5, Claude-2, Llama-2, Palm-2) をベンチマークした。
論文 参考訳(メタデータ) (2024-02-02T09:45:33Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Pre-training LLMs using human-like development data corpus [3.5757761767474876]
我々は,子どもが見るのとほぼ同じ数のトークンを用いて,文脈的単語表現を学習する能力について,LLM(Large Language Models)を事前訓練し評価する。
異なるアーキテクチャで、エポック間のパフォーマンスの変化を評価し、タスクの厳密で厳密なトラックに対する事前トレーニングメトリクスを報告します。
論文 参考訳(メタデータ) (2023-11-08T13:13:23Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。