論文の概要: Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2602.15868v2
- Date: Thu, 19 Feb 2026 10:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.673932
- Title: Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning
- Title(参考訳): LLM失敗を理解する:言語モデル推論におけるシステムエラーのマルチタップチューリングマシン解析
- Authors: Magnus Boman,
- Abstract要約: 大きな言語モデル(LLM)は、一見自明なタスクで失敗モードを示す。
決定論的マルチテープチューリングマシンを用いたインタラクションの形式化を提案する。
このモデルは、特定のパイプラインステージへの障害モードの正確なローカライズを可能にする。
- 参考スコア(独自算出の注目度): 0.033842793760651545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit failure modes on seemingly trivial tasks. We propose a formalisation of LLM interaction using a deterministic multi-tape Turing machine, where each tape represents a distinct component: input characters, tokens, vocabulary, model parameters, activations, probability distributions, and output text. The model enables precise localisation of failure modes to specific pipeline stages, revealing, e.g., how tokenisation obscures character-level structure needed for counting tasks. The model clarifies why techniques like chain-of-thought prompting help, by externalising computation on the output tape, while also revealing their fundamental limitations. This approach provides a rigorous, falsifiable alternative to geometric metaphors and complements empirical scaling laws with principled error analysis.
- Abstract(参考訳): 大きな言語モデル(LLM)は、一見自明なタスクで失敗モードを示す。
本稿では, 入力文字, トークン, 語彙, モデルパラメータ, アクティベーション, 確率分布, 出力テキストなど, それぞれのテープがそれぞれ異なる成分を表すような, 決定論的マルチテープチューリングマシンを用いたLCMインタラクションの形式化を提案する。
このモデルにより、特定のパイプラインステージへの障害モードの正確なローカライズが可能になる。
このモデルは、出力テープ上の計算を外部化し、基本的な制限を明らかにしながら、チェーン・オブ・シンクのような技術が助けとなる理由を明らかにしている。
このアプローチは幾何学的比喩の厳密な代替手段を提供し、経験的スケーリング法則を原理化された誤り解析で補完する。
関連論文リスト
- Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文 参考訳(メタデータ) (2026-03-03T14:25:02Z) - Say Anything but This: When Tokenizer Betrays Reasoning in LLMs [0.7162422068114824]
大規模言語モデル (LLMs) は、離散トークンIDシーケンスを推論する。
現代のサブワードトークンーは、非特異なエンコーディングを日常的に生成する。
トークン化は,一対多のトークンIDマッピングを通じてLCM推論を裏切ることができることを示す。
論文 参考訳(メタデータ) (2026-01-21T05:09:09Z) - Unravelling the Mechanisms of Manipulating Numbers in Language Models [9.583581545538479]
言語モデルが数値を操作し、これらのメカニズムの低い精度境界を定量化する方法について検討する。
誤りに直面するにもかかわらず、異なる言語モデルは、体系的、高度に正確で普遍的な数値の交換可能な表現を学習する。
以上の結果から,事前学習したLLMが数値を操作し,より正確な探索手法の可能性を概説した。
論文 参考訳(メタデータ) (2025-10-30T09:08:50Z) - Robust Hypothesis Generation: LLM-Automated Language Bias for Inductive Logic Programming [3.641087660577424]
大規模言語モデル(LLM)とインダクティブ論理プログラミング(ILP)を組み合わせたマルチエージェントシステムを統合する新しいフレームワークを提案する。
我々のLLMエージェントは、構造化されたシンボル語彙(述語)と関係テンプレートを自律的に定義する。
多様な、挑戦的なシナリオの実験は、優れたパフォーマンスを検証し、自動化され、説明可能で、検証可能な仮説生成のための新しいパスを舗装する。
論文 参考訳(メタデータ) (2025-05-27T17:53:38Z) - Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。
DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。