論文の概要: Continuity and Isolation Lead to Doubts or Dilemmas in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.10606v1
- Date: Thu, 15 May 2025 16:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.286729
- Title: Continuity and Isolation Lead to Doubts or Dilemmas in Large Language Models
- Title(参考訳): 大規模言語モデルにおける連続性と孤立は二重性やジレンマにつながる
- Authors: Hector Pasten, Felipe Urrutia, Hector Jimenez, Cristian B. Calderon, Cristóbal Rojas, Alexander Kozachinskiy,
- Abstract要約: 我々はトランスフォーマーにおける2つの現象、すなわち孤立と連続性の存在を示す。
コンパクトな位置符号化を用いた変換器にこれらの現象が現れることを数学的に証明する。
- 参考スコア(独自算出の注目度): 38.91805457836516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how Transformers work and how they process information is key to the theoretical and empirical advancement of these machines. In this work, we demonstrate the existence of two phenomena in Transformers, namely isolation and continuity. Both of these phenomena hinder Transformers to learn even simple pattern sequences. Isolation expresses that any learnable sequence must be isolated from another learnable sequence, and hence some sequences cannot be learned by a single Transformer at the same time. Continuity entails that an attractor basin forms around a learned sequence, such that any sequence falling in that basin will collapse towards the learned sequence. Here, we mathematically prove these phenomena emerge in all Transformers that use compact positional encoding, and design rigorous experiments, demonstrating that the theoretical limitations we shed light on occur on the practical scale.
- Abstract(参考訳): トランスフォーマーがどのように機能し、どのように情報を処理するかを理解することが、これらのマシンの理論的かつ実証的な進歩の鍵となる。
本研究では,トランスフォーマーにおける2つの現象,すなわち孤立と連続性の存在を実証する。
これらの現象は、トランスフォーマーが単純なパターン配列を学習するのを妨げている。
分離は、任意の学習可能なシーケンスが別の学習可能なシーケンスから分離されなければならないことを示し、そのため、いくつかのシーケンスは同時に単一のトランスフォーマーによって学習できない。
連続性は、アトラクタ盆地が学習シーケンスの周りに形成され、その盆地に落下する任意のシーケンスが学習シーケンスに向かって崩壊することを意味する。
ここでは、コンパクトな位置符号化と厳密な実験を設計するすべてのトランスフォーマーにおいて、これらの現象が数学的に現れることを証明し、我々が光を放つ理論的限界が実用規模で起こることを実証する。
関連論文リスト
- How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。
我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文 参考訳(メタデータ) (2025-05-02T00:07:35Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - Structured World Representations in Maze-Solving Transformers [3.75591091941815]
この研究は、小さなトランスモデルによって形成された抽象化に焦点を当てている。
迷路位相と有効経路の構造的内部表現が一貫した出現を示す証拠を見出した。
また,注目ヘッドの同定により経路追従回路の解読を行う。
論文 参考訳(メタデータ) (2023-12-05T08:24:26Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。