論文の概要: The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models
- arxiv url: http://arxiv.org/abs/2505.14172v2
- Date: Wed, 21 May 2025 13:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.356356
- Title: The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models
- Title(参考訳): ストロベリー問題:トークン化言語モデルにおける文字レベルの理解の出現
- Authors: Adrian Cosma, Stefan Ruseti, Emilian Radoi, Mihai Dascalu,
- Abstract要約: 大きな言語モデル(LLM)は、基本的制限であるトークン化のため、文字を単語にカウントするといった単純な文字レベルのタスクで一貫して失敗する。
サブワードモデルの帰納的優位性を保ちながら文字レベルの推論を大幅に改善する軽量なアーキテクチャ修正を提案する。
その結果,トークン化LMにおける低レベルの知覚ギャップを橋渡しし,それらの構造的盲点の理解と緩和のための原則的枠組みを提供する。
- 参考スコア(独自算出の注目度): 4.934638689939016
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite their remarkable progress across diverse domains, Large Language Models (LLMs) consistently fail at simple character-level tasks, such as counting letters in words, due to a fundamental limitation: tokenization. In this work, we frame this limitation as a problem of low mutual information and analyze it in terms of concept emergence. Using a suite of 19 synthetic tasks that isolate character-level reasoning in a controlled setting, we show that such capabilities emerge slowly, suddenly, and only late in training. We further show that percolation-based models of concept emergence explain these patterns, suggesting that learning character composition is not fundamentally different from learning commonsense knowledge. To address this bottleneck, we propose a lightweight architectural modification that significantly improves character-level reasoning while preserving the inductive advantages of subword models. Together, our results bridge low-level perceptual gaps in tokenized LMs and provide a principled framework for understanding and mitigating their structural blind spots. We make our code publicly available.
- Abstract(参考訳): 様々な領域にまたがる顕著な進歩にもかかわらず、Large Language Models (LLM) は、基本的制限であるトークン化のため、単語の文字数などの単純な文字レベルのタスクで一貫して失敗する。
本研究では,この制限を相互情報の少ない問題として捉え,概念の出現の観点から分析する。
制御された環境下で文字レベルの推論を分離する19種類の合成タスクを用いて、そのような能力は、訓練の遅い段階で、突然、そして遅い段階で出現することを示す。
さらに、パーコレーションに基づく概念出現モデルがこれらのパターンを説明することを示し、文字構成の学習と常識知識の学習とは根本的に異なるものではないことを示唆する。
このボトルネックに対処するため,サブワードモデルの帰納的優位性を保ちつつ,文字レベルの推論を大幅に改善する軽量なアーキテクチャ修正を提案する。
その結果,トークン化LMにおける低レベルの知覚ギャップを橋渡しし,それらの構造的盲点の理解と緩和のための原則的枠組みを提供する。
コードを公開しています。
関連論文リスト
- Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。
認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。
SoTは、無視できる精度の影響でトークンを76%削減する。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Causal Graphical Models for Vision-Language Compositional Understanding [36.24185263818946]
提案手法は, 最先端の合成手法を大きなマージンで大幅に上回っていることを示す。
さらに、はるかに大きなデータセットを使用してトレーニングされたメソッドよりも改善されている。
論文 参考訳(メタデータ) (2024-12-12T15:22:03Z) - Chain-of-Thought in Large Language Models: Decoding, Projection, and Activation [8.80044898397965]
Chain-of-Thoughtプロンプトは、大規模言語モデルの推論能力を著しく向上させた。
本研究は,Chainof-Thoughtを用いたモデル内で発生する変化の解明を目的とした,デコーディング,プロジェクション,アクティベーションの3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-12-05T07:47:29Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。