Fugu-MT 論文翻訳(概要): On Limitations of the Transformer Architecture

論文の概要: On Limitations of the Transformer Architecture

arxiv url: http://arxiv.org/abs/2402.08164v1
Date: Tue, 13 Feb 2024 01:52:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 17:08:47.360370
Title: On Limitations of the Transformer Architecture
Title（参考訳）: 変圧器アーキテクチャの限界について
Authors: Binghui Peng, Srini Narayanan, Christos Papadimitriou
Abstract要約: 本稿では,関数の領域が十分に大きい場合,Transformer層は関数を構成することができないことを示す。また,LLMにとって難しいと思われる構成課題の中核にある数種類の数学的タスクは,トランスフォーマーが解けるとは考えにくいことを指摘する。
参考スコア（独自算出の注目度）: 15.329285967441372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: What are the root causes of hallucinations in large language models (LLMs)? We use Communication Complexity to prove that the Transformer layer is incapable of composing functions (e.g., identify a grandparent of a person in a genealogy) if the domains of the functions are large enough; we show through examples that this inability is already empirically present when the domains are quite small. We also point out that several mathematical tasks that are at the core of the so-called compositional tasks thought to be hard for LLMs are unlikely to be solvable by Transformers, for large enough instances and assuming that certain well accepted conjectures in the field of Computational Complexity are true.
Abstract（参考訳）: 大型言語モデル(LLM)における幻覚の根本原因は何か? 通信複雑度を用いて、関数のドメインが十分に大きい場合、トランスフォーマー層が関数を構成することができないこと(例えば、系図上の人の祖父母を特定する)を証明する。また,llmでは難しいと考えられる構成的タスクの核となるいくつかの数学的タスクは,計算複雑性の分野においてある程度受け入れられている予想が真であるとして,トランスフォーマーによって解ける可能性は低いことを指摘した。

関連論文リスト

On the Intrinsic Limits of Transformer Image Embeddings in Non-Solvable Spatial Reasoning [4.907226678338655]
視覚変換器 (ViT) は意味認識に優れるが, 心的回転などの空間的推論タスクにおいて, 系統的失敗を示す。我々は複雑性境界を定式化する: 定数深度ViTは、非解決可能な空間構造を効率的に捉えるための論理的な深さを根本的に欠いている。我々はこの複雑性ギャップを潜在空間探索により検証し、ViT表現が構成深度が増加するにつれて非解決不可能なタスクに構造的に崩壊することを示した。
論文参考訳（メタデータ） (2026-01-06T14:32:40Z)
Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization [53.89723291716722]
AI推論に関する重要な問題は、モデルが学習した推論パターンを外挿して、より長いチェーン・オブ・シークレット(CoT)で難しいタスクを解決できるかどうかである。状態追跡問題の代数構造が、学習されたCoTの外挿の度合いをいかに支配するかを数学的に証明する。定数深度変換器はCoTで$mathsfNC1$-complete問題を確実に学習することを保証する。
論文参考訳（メタデータ） (2025-11-10T18:40:24Z)
Lower Bounds for Chain-of-Thought Reasoning in Hard-Attention Transformers [5.4649464326326]
整合推論とスクラッチパッドは、変換器の計算能力を高める重要なツールとして登場した。本研究では,異なるアルゴリズム問題にまたがるCoTステップ数に対する体系的下界の研究を開始する。
論文参考訳（メタデータ） (2025-02-04T15:14:01Z)
Ask, and it shall be given: Turing completeness of prompting [47.08833920586575]
大規模言語モデル(LLM)は機械学習に革命をもたらし、いわゆるLLMプロンプトパラダイムを開始した。本稿では, LLMプロンプトパラダイムに関する最初の理論的研究を, 我々の知識を最大限活用するために提示する。有限サイズの変換器が存在し、計算可能な任意の関数に対して、変換器が関数を演算する対応するプロンプトが存在することを示す。
論文参考訳（メタデータ） (2024-11-04T11:26:38Z)
MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
MathGAPは、それらの算術的証明構造に関する仕様に従って、問題文と連鎖推論トレースを生成する。 MathGAP を用いて, LLM はより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
論文参考訳（メタデータ） (2024-10-17T12:48:14Z)
When Can Transformers Count to n? [48.32323039293186]
本研究では, 変圧器状態の次元が文脈長で線形であれば, この課題を解くことができることを示す。サイズ制限された変圧器がこのタスクを実装することが不可能な理由を理論的に論じる。本結果は,トランスフォーマーが簡単なタスクを解く方法を理解することの重要性を示す。
論文参考訳（メタデータ） (2024-07-21T13:31:02Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)
Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective [39.47116013338394]
CoT(Chain-of-Thought prompting)は,大規模言語モデル(LLM)の性能を劇的に向上させる我々は、CoTが動的プログラミング(Dynamic Programming)として知られる一般的な意思決定問題に対処できることを示します。
論文参考訳（メタデータ） (2023-05-24T17:59:21Z)
How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文参考訳（メタデータ） (2023-03-07T21:42:17Z)
Statistically Meaningful Approximation: a Case Study on Approximating Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文参考訳（メタデータ） (2021-07-28T04:28:55Z)
Quantifying and Improving Transferability in Domain Generalization [53.16289325326505]
アウト・オブ・ディストリビューションの一般化は、実験室から現実世界にモデルを移す際の重要な課題の1つである。我々は、領域一般化において量子化と計算が可能な転送可能性を正式に定義する。転送可能な特徴を学習し、様々なベンチマークデータセット上でテストするための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-07T14:04:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。