論文の概要: Probability Distributions Computed by Hard-Attention Transformers
- arxiv url: http://arxiv.org/abs/2510.27118v1
- Date: Fri, 31 Oct 2025 02:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.956741
- Title: Probability Distributions Computed by Hard-Attention Transformers
- Title(参考訳): ハードアテンション変換器による確率分布計算
- Authors: Andy Yang, Anej Svete, Jiaoda Li, Anthony Widjaja Lin, Jonathan Rawski, Ryan Cotterell, David Chiang,
- Abstract要約: 変換言語認識器の自己回帰化は,時として表現性を高める可能性があることを示す。
私たちの全体的な貢献は、トランスフォーマーが表現できる関数を、言語モデルとして最も一般的なユースケースで分解することにあります。
- 参考スコア(独自算出の注目度): 53.17368795629463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most expressivity results for transformers treat them as language recognizers (which accept or reject strings), and not as they are used in practice, as language models (which generate strings autoregressively and probabilistically). Here, we characterize the probability distributions that transformer language models can express. We show that making transformer language recognizers autoregressive can sometimes increase their expressivity, and that making them probabilistic can break equivalences that hold in the non-probabilistic case. Our overall contribution is to tease apart what functions transformers are capable of expressing, in their most common use-case as language models.
- Abstract(参考訳): トランスフォーマーのほとんどの表現力は、それらを言語認識子(文字列を受理または拒否する)として扱うが、実際には言語モデル(文字列を自己回帰的に確率的に生成する)として使用するものではない。
ここではトランスフォーマー言語モデルが表現できる確率分布を特徴付ける。
変換言語認識器を自動回帰させると表現力が向上し,確率的になると非確率的の場合の等価性を損なう可能性があることを示す。
私たちの全体的な貢献は、トランスフォーマーが表現できる関数を、言語モデルとして最も一般的なユースケースで分解することにあります。
関連論文リスト
- Transformers are Inherently Succinct [46.836122954309566]
変換器は形式言語の標準表現よりもかなり簡潔に形式言語を表現できることを証明している。
この表現性の副産物として, 変圧器のバリデーション特性が確実に抽出可能であることを示す。
論文 参考訳(メタデータ) (2025-10-22T07:25:54Z) - Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。
これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。
さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文 参考訳(メタデータ) (2025-05-29T16:30:30Z) - Extracting Moore Machines from Transformers using Queries and Counterexamples [6.612713406498215]
正規言語で訓練された変換器の高レベル抽象化として有限状態オートマトンを構築する。
文献で使用される多くのトレーニングタスクをそれらにマッピングできるので、ムーアマシンを抽出する。
本稿では,正のみの学習法とシーケンス精度を詳細に研究することで,このアプローチの有用性を実証する。
論文 参考訳(メタデータ) (2024-10-08T13:43:50Z) - A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。
我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。
スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文 参考訳(メタデータ) (2024-05-07T17:47:57Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - On the Ability and Limitations of Transformers to Recognize Formal
Languages [9.12267978757844]
カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。
トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。
おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
論文 参考訳(メタデータ) (2020-09-23T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。