論文の概要: What do language models model? Transformers, automata, and the format of thought
- arxiv url: http://arxiv.org/abs/2508.18598v1
- Date: Tue, 26 Aug 2025 02:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.638195
- Title: What do language models model? Transformers, automata, and the format of thought
- Title(参考訳): 言語モデルとは何か? トランスフォーマー、オートマタ、思考の形式
- Authors: Colin Klein,
- Abstract要約: 大きな言語モデルは、人間の能力について何かを教えてくれるのか、それとも、トレーニングしたコーパスのモデルなのか?
私は後者の立場を非限定的に擁護する。
私はなぜこれがひどくデフレ的な話だと思わないのかと結論付けています。
- 参考スコア(独自算出の注目度): 0.03691941137525625
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: What do large language models actually model? Do they tell us something about human capacities, or are they models of the corpus we've trained them on? I give a non-deflationary defence of the latter position. Cognitive science tells us that linguistic capabilities in humans rely supralinear formats for computation. The transformer architecture, by contrast, supports at best a linear formats for processing. This argument will rely primarily on certain invariants of the computational architecture of transformers. I then suggest a positive story about what transformers are doing, focusing on Liu et al. (2022)'s intriguing speculations about shortcut automata. I conclude with why I don't think this is a terribly deflationary story. Language is not (just) a means for expressing inner state but also a kind of 'discourse machine' that lets us make new language given appropriate context. We have learned to use this technology in one way; LLMs have also learned to use it too, but via very different means.
- Abstract(参考訳): 大規模な言語モデルは実際に何をモデル化しますか?
人間の能力について何か教えてくれるのか、それとも、私たちが訓練したコーパスのモデルなのか?
私は後者の立場を非限定的に擁護する。
認知科学は、人間の言語能力は計算に超線形形式に依存していることを示している。
対照的に、トランスフォーマーアーキテクチャは、処理の線形フォーマットをせいぜいサポートしている。
この議論は、主に変圧器の計算アーキテクチャの特定の不変量に依存する。
その後、Liu et al (2022)のショートカットオートマトンに関する興味深い憶測に焦点をあてて、トランスフォーマーが何をしているのか、肯定的なストーリーを提案します。
私はなぜこれがひどくデフレ的な話だと思わないのかと結論付けています。
言語は(単に)内部の状態を表現する手段ではなく、適切な文脈で新しい言語を作るための一種の「談話機械」でもある。
私たちはこのテクノロジをひとつの方法で使用することを学びました。
関連論文リスト
- Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Why transformers are obviously good models of language [19.214362677861025]
トランスフォーマーは、代替手段よりも成功して言語を自動的に処理するニューラルネットワークである。
トランスフォーマーアーキテクチャと言語に関するある種の理論的視点との直接的な関係を強調します。
論文 参考訳(メタデータ) (2024-08-07T15:52:46Z) - A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。
我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。
スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文 参考訳(メタデータ) (2024-05-07T17:47:57Z) - Deanthropomorphising NLP: Can a Language Model Be Conscious? [7.41244589428771]
我々は、そのような大きな言語モデルは、センシティブでもなく、意識的にもなく、特にLaMDAは、その資格を持つ他の類似したモデルよりも進歩していないという立場を取る。
感性の主張は,NLP報告における人為的言語の使用傾向の広範化の一環と考えられる。
論文 参考訳(メタデータ) (2022-11-21T14:18:25Z) - PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D
World [86.21137454228848]
我々はPIGLeTを物理力学モデルと別言語モデルに分類する。
PIGLeTは文を読み、次に何が起こるか神経的にシミュレートし、その結果を文字通りの記号表現を通して伝達する。
80%以上の英語の文から「次に何が起こるか」を正確に予測することができ、100倍以上のテキスト・テキスト・アプローチを10%以上上回っている。
論文 参考訳(メタデータ) (2021-06-01T02:32:12Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z) - What all do audio transformer models hear? Probing Acoustic
Representations for Language Delivery and its Structure [64.54208910952651]
オーディオトランスフォーマーモデル mockingjay と wave2vec2.0 を比較した。
音声モデルのテキスト表面、構文、および意味的特徴に対する理解を調査します。
ネイティブ、非ネイティブ、合成、読み取り、自発的な音声データセットの完全な設定でこれを行います。
論文 参考訳(メタデータ) (2021-01-02T06:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。