論文の概要: Transformer-Based Models Are Not Yet Perfect At Learning to Emulate
Structural Recursion
- arxiv url: http://arxiv.org/abs/2401.12947v1
- Date: Tue, 23 Jan 2024 18:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 14:42:07.605832
- Title: Transformer-Based Models Are Not Yet Perfect At Learning to Emulate
Structural Recursion
- Title(参考訳): トランスフォーマーに基づくモデルでは、構造的再帰をエミュレートする学習がまだ完璧ではない
- Authors: Dylan Zhang, Curt Tigges, Zory Zhang, Stella Biderman, Maxim Raginsky,
Talia Ringer
- Abstract要約: 本稿では,プログラミング言語領域における構造的再帰という抽象概念を,シーケンスモデリング問題や学習モデルの振る舞いにうまく結合する汎用フレームワークを提案する。
フレームワークを強力な概念ツールとして、さまざまな設定の下で異なる問題を特定します。
- 参考スコア(独自算出の注目度): 14.739369424331478
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper investigates the ability of transformer-based models to learn
structural recursion from examples. Recursion is a universal concept in both
natural and formal languages. Structural recursion is central to the
programming language and formal mathematics tasks where symbolic tools
currently excel beyond neural models, such as inferring semantic relations
between datatypes and emulating program behavior. We introduce a general
framework that nicely connects the abstract concepts of structural recursion in
the programming language domain to concrete sequence modeling problems and
learned models' behavior. The framework includes a representation that captures
the general \textit{syntax} of structural recursion, coupled with two different
frameworks for understanding their \textit{semantics} -- one that is more
natural from a programming languages perspective and one that helps bridge that
perspective with a mechanistic understanding of the underlying transformer
architecture.
With our framework as a powerful conceptual tool, we identify different
issues under various set-ups. The models trained to emulate recursive
computations cannot fully capture the recursion yet instead fit short-cut
algorithms and thus cannot solve certain edge cases that are under-represented
in the training distribution. In addition, it is difficult for state-of-the-art
large language models (LLMs) to mine recursive rules from in-context
demonstrations. Meanwhile, these LLMs fail in interesting ways when emulating
reduction (step-wise computation) of the recursive function.
- Abstract(参考訳): 本稿では, 変圧器モデルを用いた構造再帰学習の事例から検討する。
再帰は自然言語と形式言語の両方において普遍的な概念である。
構造的再帰はプログラミング言語や形式数学のタスクの中心であり、記号的ツールは現在、データ型間の意味的関係の推測やプログラムの振る舞いのエミュレートなど、ニューラルモデルを超えて優れている。
本稿では,プログラミング言語領域における構造再帰の抽象概念を,具体的なシーケンスモデリング問題や学習モデルの振る舞いにうまく結びつける汎用フレームワークを提案する。
このフレームワークには、構造再帰の一般的な \textit{syntax} をキャプチャする表現が含まれており、それらの \textit{semantics} を理解するための2つの異なるフレームワークと結合されている。
フレームワークを強力な概念ツールとして、さまざまな設定の下で異なる問題を特定します。
再帰的計算をエミュレートするために訓練されたモデルは、再帰を完全に捉えることができず、代わりにショートカットアルゴリズムに適合するので、トレーニング分布で表現されていない特定のエッジケースを解決できない。
さらに,現在最先端の大規模言語モデル (LLM) では,コンテキスト内デモから再帰的なルールを抽出することは困難である。
一方、これらのLSMは再帰関数の還元(ステップワイズ計算)をエミュレートする際に興味深い方法で失敗する。
関連論文リスト
- Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Can Transformers Learn to Solve Problems Recursively? [9.5623664764386]
本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
論文 参考訳(メタデータ) (2023-05-24T04:08:37Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Folding over Neural Networks [1.7818230914983044]
本稿では、構造的再帰がHaskellにおけるニューラルネットワークの表現にどのように役立つかを示す。
そこで我々は,ニューラルネットワークのコヒーレントな実装を推進し,その構造とセマンティクスを規定する。
論文 参考訳(メタデータ) (2022-07-03T18:20:05Z) - Recursive Reinforcement Learning [4.429642479975602]
再帰は、潜在的無限のオブジェクトを有限に記述する基本的なパラダイムである。
我々はマルコフ決定プロセスの集合として記述された環境における最適ポリシーを計算できるRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-23T00:29:42Z) - Learning Algebraic Recombination for Compositional Generalization [71.78771157219428]
合成一般化のための代数的組換え学習のためのエンドツーエンドニューラルモデルLeARを提案する。
主要な洞察は、意味解析タスクを潜在構文代数学と意味代数学の間の準同型としてモデル化することである。
2つの現実的・包括的構成一般化の実験は、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2021-07-14T07:23:46Z) - R2D2: Recursive Transformer based on Differentiable Tree for
Interpretable Hierarchical Language Modeling [36.61173494449218]
本稿では, 構成過程をエミュレートするために, 微分可能なCKYスタイルのバイナリツリーに基づくモデルを提案する。
我々は、このアーキテクチャに対して双方向言語モデル事前学習の目的を拡張し、左右の抽象ノードを与えられた各単語を予測しようと試みる。
また,本手法を大規模化するために,合成ステップの線形数だけを符号化する効率的な伐採木誘導アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-07-02T11:00:46Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。