論文の概要: The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models
- arxiv url: http://arxiv.org/abs/2505.14172v3
- Date: Mon, 15 Sep 2025 18:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 15:46:32.681052
- Title: The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models
- Title(参考訳): ストロベリー問題:トークン化言語モデルにおける文字レベルの理解の出現
- Authors: Adrian Cosma, Stefan Ruseti, Emilian Radoi, Mihai Dascalu,
- Abstract要約: 大きな言語モデル(LLM)は、基本的制限であるトークン化のため、文字を単語にカウントするといった単純な文字レベルのタスクで一貫して失敗する。
サブワードモデルの帰納的優位性を保ちながら文字レベルの推論を大幅に改善する軽量なアーキテクチャ修正を提案する。
その結果,トークン化LMにおける低レベルの知覚ギャップを橋渡しし,それらの構造的盲点の理解と緩和のための原則的枠組みを提供する。
- 参考スコア(独自算出の注目度): 2.531076482407163
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite their remarkable progress across diverse domains, Large Language Models (LLMs) consistently fail at simple character-level tasks, such as counting letters in words, due to a fundamental limitation: tokenization. In this work, we frame this limitation as a problem of low mutual information and analyze it in terms of concept emergence. Using a suite of 19 synthetic tasks that isolate character-level reasoning in a controlled setting, we show that such capabilities emerge suddenly and only late in training. We find that percolation-based models of concept emergence explain these patterns, suggesting that learning character composition is not fundamentally different from learning commonsense knowledge. To address this bottleneck, we propose a lightweight architectural modification that significantly improves character-level reasoning while preserving the inductive advantages of subword models. Together, our results bridge low-level perceptual gaps in tokenized LMs and provide a principled framework for understanding and mitigating their structural blind spots. We make our code publicly available.
- Abstract(参考訳): 様々な領域にまたがる顕著な進歩にもかかわらず、Large Language Models (LLM) は、基本的制限であるトークン化のため、単語の文字数などの単純な文字レベルのタスクで一貫して失敗する。
本研究では,この制限を相互情報の少ない問題として捉え,概念の出現の観点から分析する。
制御された環境下で文字レベルの推論を分離する19種類の合成タスクを用いて、そのような能力が突然出現し、訓練が遅くなることを示す。
パーコレーションに基づく概念出現モデルでは、これらのパターンが説明され、文字構成の学習はコモンセンス知識の学習と根本的に異なるものではないことが示唆された。
このボトルネックに対処するため,サブワードモデルの帰納的優位性を保ちつつ,文字レベルの推論を大幅に改善する軽量なアーキテクチャ修正を提案する。
その結果,トークン化LMにおける低レベルの知覚ギャップを橋渡しし,それらの構造的盲点の理解と緩和のための原則的枠組みを提供する。
コードを公開しています。
関連論文リスト
- Reflection Pretraining Enables Token-Level Self-Correction in Biological Sequence Models [82.79223371188756]
CoT(Chain-of-Thought)は、大規模言語モデルを用いた自然言語処理において、高度なタスク解決機能を備えている。
CoTをタンパク質やRNA言語モデルのような非自然言語ドメインに適用することは、まだ不可能である。
生物シークエンスモデルではじめて事前学習を導入し、中間的推論を行えるようにした。
論文 参考訳(メタデータ) (2025-12-24T05:25:17Z) - Improving Procedural Skill Explanations via Constrained Generation: A Symbolic-LLM Hybrid Architecture [2.6141337419964725]
手続き的スキル学習では、指示的説明はステップだけでなく、その背後にある因果的、ゴール指向的、構成論理を伝達しなければならない。
Ivyは、記号的タスク・メソッド・知識(TMK)モデルと生成的解釈層を組み合わせ、構造化された多段階的な説明を提供するAIコーチングシステムである。
論文 参考訳(メタデータ) (2025-11-26T00:29:53Z) - Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability [31.30541946703775]
モデルの内部表現と計算を人間が理解できる概念に変換することが、解釈可能性の重要な目標である。
スパースオートエンコーダのような最近の辞書学習手法は、人間の解釈可能な特徴を発見するための有望な経路を提供する。
しかし、彼らは「文の始めの「The」というフレーズ」のような浅い、トークン特有の、または騒々しい特徴に偏りを呈している。
論文 参考訳(メタデータ) (2025-10-30T17:59:30Z) - Schema for In-Context Learning [0.7850388075652649]
In-context Learning (ICL) は、実演例に条件付けすることで、言語モデルが新しいタスクに適応できるようにする。
CONTEXT(SA-ICL)におけるSCHEMAの導入
この枠組みは, 先行事例から, 推論過程に対する認知の構成要素の表現を抽出する。
SA-ICLは、単一の実演例が高品質である場合、パフォーマンスを36.19パーセントまで継続的に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-14T21:00:15Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。
認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。
SoTは、無視できる精度の影響でトークンを76%削減する。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Causal Graphical Models for Vision-Language Compositional Understanding [36.24185263818946]
提案手法は, 最先端の合成手法を大きなマージンで大幅に上回っていることを示す。
さらに、はるかに大きなデータセットを使用してトレーニングされたメソッドよりも改善されている。
論文 参考訳(メタデータ) (2024-12-12T15:22:03Z) - Chain-of-Thought in Large Language Models: Decoding, Projection, and Activation [8.80044898397965]
Chain-of-Thoughtプロンプトは、大規模言語モデルの推論能力を著しく向上させた。
本研究は,Chainof-Thoughtを用いたモデル内で発生する変化の解明を目的とした,デコーディング,プロジェクション,アクティベーションの3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-12-05T07:47:29Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。