論文の概要: Mechanisms of Symbol Processing for In-Context Learning in Transformer Networks
- arxiv url: http://arxiv.org/abs/2410.17498v1
- Date: Wed, 23 Oct 2024 01:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:40.485642
- Title: Mechanisms of Symbol Processing for In-Context Learning in Transformer Networks
- Title(参考訳): 変圧器ネットワークにおけるインコンテキスト学習のためのシンボル処理のメカニズム
- Authors: Paul Smolensky, Roland Fernandez, Zhenghao Herbert Zhou, Mattia Opper, Jianfeng Gao,
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)によるシンボル処理における印象的な能力を示した。
トランスネットワークにおけるロバストなシンボル処理を実現するメカニズムの解明を目指す。
複雑で抽象的なシンボル処理を行うための記号プログラムを記述できる高レベル言語 PSL を開発した。
- 参考スコア(独自算出の注目度): 78.54913566111198
- License:
- Abstract: Large Language Models (LLMs) have demonstrated impressive abilities in symbol processing through in-context learning (ICL). This success flies in the face of decades of predictions that artificial neural networks cannot master abstract symbol manipulation. We seek to understand the mechanisms that can enable robust symbol processing in transformer networks, illuminating both the unanticipated success, and the significant limitations, of transformers in symbol processing. Borrowing insights from symbolic AI on the power of Production System architectures, we develop a high-level language, PSL, that allows us to write symbolic programs to do complex, abstract symbol processing, and create compilers that precisely implement PSL programs in transformer networks which are, by construction, 100% mechanistically interpretable. We demonstrate that PSL is Turing Universal, so the work can inform the understanding of transformer ICL in general. The type of transformer architecture that we compile from PSL programs suggests a number of paths for enhancing transformers' capabilities at symbol processing. (Note: The first section of the paper gives an extended synopsis of the entire paper.)
- Abstract(参考訳): 大規模言語モデル (LLM) は、インコンテキスト学習 (ICL) によるシンボル処理における印象的な能力を示している。
この成功は、人工ニューラルネットワークが抽象的なシンボル操作をマスターできないという何十年もの予測に直面している。
我々は,変圧器ネットワークにおけるロバストなシンボル処理を実現するメカニズムを解明し,予期せぬ成功とシンボル処理における重要な限界の両方を照らし出すことを目的とする。
生産システムアーキテクチャのパワーに関する記号型AIの知見を引用し、複雑で抽象的なシンボル処理を行うための記号型プログラムを記述するための高レベル言語PSLを開発し、構成によって100%機械的に解釈可能なトランスフォーマーネットワークでPSLプログラムを正確に実装するコンパイラを作成する。
我々は、PSLがチューリングユニバーサルであることを示し、変換器ICLの理解を一般に伝えることができる。
PSLプログラムからコンパイルするトランスフォーマーアーキテクチャは,シンボル処理におけるトランスフォーマーの機能向上のためのパスを多数提案する。
(注:第1節では全紙の要約を拡大している。)
関連論文リスト
- Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。
本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。
代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文 参考訳(メタデータ) (2024-10-07T20:31:13Z) - Body Transformer: Leveraging Robot Embodiment for Policy Learning [51.531793239586165]
ボディートランスフォーマー(ボディートランスフォーマー、Body Transformer、BoT)は、学習プロセスを導く誘導バイアスを提供することで、ロボットの体現性を活用するアーキテクチャである。
我々はロボットの体をセンサーとアクチュエータのグラフとして表現し、建築全体を通してプール情報にマスキングされた注意を頼りにしている。
結果として得られるアーキテクチャは、バニラ変換器と古典的な多層パーセプトロンを、タスク完了、スケーリング特性、計算効率の点で上回る。
論文 参考訳(メタデータ) (2024-08-12T17:31:28Z) - Automata Extraction from Transformers [5.419884861365132]
トランスフォーマーモデルに特化して設計された自動抽出アルゴリズムを提案する。
トランスフォーマーモデルをブラックボックスシステムとして扱い、内部の潜在表現の変換プロセスを通してモデルを追跡する。
次に、L*アルゴリズムのような古典的な教育的手法を用いて、それらを決定論的有限状態オートマトンと解釈する。
論文 参考訳(メタデータ) (2024-06-08T20:07:24Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。
人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。
Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文 参考訳(メタデータ) (2023-06-01T20:27:01Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。