Fugu-MT 論文翻訳(概要): Why transformers are obviously good models of language

論文の概要: Why transformers are obviously good models of language

arxiv url: http://arxiv.org/abs/2408.03855v1
Date: Wed, 7 Aug 2024 15:52:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-08 12:44:51.440279
Title: Why transformers are obviously good models of language
Title（参考訳）: トランスフォーマーが明らかに言語モデルである理由
Authors: Felix Hill,
Abstract要約: トランスフォーマーは、代替手段よりも成功して言語を自動的に処理するニューラルネットワークである。トランスフォーマーアーキテクチャと言語に関するある種の理論的視点との直接的な関係を強調します。
参考スコア（独自算出の注目度）: 19.214362677861025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Nobody knows how language works, but many theories abound. Transformers are a class of neural networks that process language automatically with more success than alternatives, both those based on neural computations and those that rely on other (e.g. more symbolic) mechanisms. Here, I highlight direct connections between the transformer architecture and certain theoretical perspectives on language. The empirical success of transformers relative to alternative models provides circumstantial evidence that the linguistic approaches that transformers embody should be, at least, evaluated with greater scrutiny by the linguistics community and, at best, considered to be the currently best available theories.
Abstract（参考訳）: 言語がどのように機能するかは誰も知らないが、多くの理論がある。トランスフォーマー(Transformer)は、ニューラルネットワークの他の(より象徴的な)メカニズムに依存するものよりも、言語を自動で処理するタイプのニューラルネットワークである。ここでは、トランスアーキテクチャと言語に関するある種の理論的視点との直接的な関係を強調します。代替モデルに対するトランスフォーマーの実証的な成功は、トランスフォーマーを具現化する言語的アプローチが、少なくとも言語学的コミュニティによってより精査され、そしてせいぜい、現在最もよく利用可能な理論であると考えられる、という状況証拠を提供する。

関連論文リスト

Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文参考訳（メタデータ） (2025-05-29T16:30:30Z)
Moving Beyond Next-Token Prediction: Transformers are Context-Sensitive Language Generators [0.40792653193642503]
トランスフォーマーを利用した大規模言語モデル(LLM)は、人間のような知能を実証している。本稿では,LLMを確率的左文脈依存言語(CSL)ジェネレータとして解釈するための新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-04-15T04:06:27Z)
Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。 3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文参考訳（メタデータ） (2024-11-11T16:33:25Z)
Extracting Finite State Machines from Transformers [0.3069335774032178]
機械的解釈可能性の観点から正規言語で訓練された変圧器の訓練可能性について検討する。有限個の記号が状態を決定するとき, 変圧器の訓練性に対して, より強い下界を経験的に見出す。機械的な洞察により、1層トランスフォーマーが優れた長さの一般化で学習できる正規言語を特徴付けることができる。
論文参考訳（メタデータ） (2024-10-08T13:43:50Z)
Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文参考訳（メタデータ） (2024-10-03T21:21:02Z)
A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文参考訳（メタデータ） (2024-05-07T17:47:57Z)
Revenge of the Fallen? Recurrent Models Match Transformers at Predicting Human Language Comprehension Metrics [3.3932293160775298]
現代のリカレントモデルでは,オンラインの人間の言語理解をモデル化する上で,比較可能な大きさのトランスフォーマーの性能を - そして場合によっては - 上回ることができることを示す。このことは、トランスフォーマー言語モデルがこのタスクに一意に適していないことを示唆し、言語モデルのアーキテクチャ的特徴が人間の言語理解のモデルをより良く、より悪いものにするかどうかについての議論のための新たな方向性を開くことを示唆している。
論文参考訳（メタデータ） (2024-04-30T01:02:15Z)
Transformers are Expressive, But Are They Expressive Enough for Regression? [38.369337945109855]
この結果から,トランスフォーマーはスムーズな関数を確実に近似するのに苦労し,分割的に一定間隔の近似に頼っていることがわかった。これらの課題に光を当てることで、トランスフォーマーの能力に関する洗練された理解を提唱する。
論文参考訳（メタデータ） (2024-02-23T18:12:53Z)
Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文参考訳（メタデータ） (2023-11-26T06:56:02Z)
Characterizing Intrinsic Compositionality in Transformers with Tree Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。 3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文参考訳（メタデータ） (2022-11-02T17:10:07Z)
Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文参考訳（メタデータ） (2021-06-13T13:04:46Z)
Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors [15.348047288817478]
我々は,変圧器因子の線形重ね合わせとして,辞書学習を用いて「ブラックボックス」を開くことを提案する。可視化により,変換因子によって得られた階層的意味構造を実演する。この視覚化ツールによって、トランスフォーマーネットワークの動作に関するさらなる知識と理解が得られればと思っています。
論文参考訳（メタデータ） (2021-03-29T20:51:33Z)
On the Ability and Limitations of Transformers to Recognize Formal Languages [9.12267978757844]
カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
論文参考訳（メタデータ） (2020-09-23T17:21:33Z)
Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文参考訳（メタデータ） (2020-06-25T13:43:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。