論文の概要: On Limitations of the Transformer Architecture
- arxiv url: http://arxiv.org/abs/2402.08164v2
- Date: Mon, 26 Feb 2024 22:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:11:13.403162
- Title: On Limitations of the Transformer Architecture
- Title(参考訳): 変圧器アーキテクチャの限界について
- Authors: Binghui Peng, Srini Narayanan, Christos Papadimitriou
- Abstract要約: 本稿では,関数の領域が十分に大きい場合,Transformer層は関数を構成することができないことを示す。
また,LLMにとって難しいと思われる構成課題の中核にある数種類の数学的タスクは,トランスフォーマーが解けるとは考えにくいことを指摘する。
- 参考スコア(独自算出の注目度): 15.329285967441372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What are the root causes of hallucinations in large language models (LLMs)?
We use Communication Complexity to prove that the Transformer layer is
incapable of composing functions (e.g., identify a grandparent of a person in a
genealogy) if the domains of the functions are large enough; we show through
examples that this inability is already empirically present when the domains
are quite small. We also point out that several mathematical tasks that are at
the core of the so-called compositional tasks thought to be hard for LLMs are
unlikely to be solvable by Transformers, for large enough instances and
assuming that certain well accepted conjectures in the field of Computational
Complexity are true.
- Abstract(参考訳): 大型言語モデル(LLM)における幻覚の根本原因は何か?
通信複雑度を用いて、関数のドメインが十分に大きい場合、トランスフォーマー層が関数を構成することができないこと(例えば、系図上の人の祖父母を特定する)を証明する。
また,llmでは難しいと考えられる構成的タスクの核となるいくつかの数学的タスクは,計算複雑性の分野においてある程度受け入れられている予想が真であるとして,トランスフォーマーによって解ける可能性は低いことを指摘した。
関連論文リスト
- Ask, and it shall be given: Turing completeness of prompting [47.08833920586575]
大規模言語モデル(LLM)は機械学習に革命をもたらし、いわゆるLLMプロンプトパラダイムを開始した。
本稿では, LLMプロンプトパラダイムに関する最初の理論的研究を, 我々の知識を最大限活用するために提示する。
有限サイズの変換器が存在し、計算可能な任意の関数に対して、変換器が関数を演算する対応するプロンプトが存在することを示す。
論文 参考訳(メタデータ) (2024-11-04T11:26:38Z) - When Can Transformers Count to n? [48.32323039293186]
本研究では, 変圧器状態の次元が文脈長で線形であれば, この課題を解くことができることを示す。
サイズ制限された変圧器がこのタスクを実装することが不可能な理由を理論的に論じる。
本結果は,トランスフォーマーが簡単なタスクを解く方法を理解することの重要性を示す。
論文 参考訳(メタデータ) (2024-07-21T13:31:02Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Towards Revealing the Mystery behind Chain of Thought: A Theoretical
Perspective [39.47116013338394]
CoT(Chain-of-Thought prompting)は,大規模言語モデル(LLM)の性能を劇的に向上させる
我々は、CoTが動的プログラミング(Dynamic Programming)として知られる一般的な意思決定問題に対処できることを示します。
論文 参考訳(メタデータ) (2023-05-24T17:59:21Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - Quantifying and Improving Transferability in Domain Generalization [53.16289325326505]
アウト・オブ・ディストリビューションの一般化は、実験室から現実世界にモデルを移す際の重要な課題の1つである。
我々は、領域一般化において量子化と計算が可能な転送可能性を正式に定義する。
転送可能な特徴を学習し、様々なベンチマークデータセット上でテストするための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T14:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。