Fugu-MT 論文翻訳(概要): Transformer-Based Models Are Not Yet Perfect At Learning to Emulate Structural Recursion

論文の概要: Transformer-Based Models Are Not Yet Perfect At Learning to Emulate Structural Recursion

arxiv url: http://arxiv.org/abs/2401.12947v1
Date: Tue, 23 Jan 2024 18:07:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 14:42:07.605832
Title: Transformer-Based Models Are Not Yet Perfect At Learning to Emulate Structural Recursion
Title（参考訳）: トランスフォーマーに基づくモデルでは、構造的再帰をエミュレートする学習がまだ完璧ではない
Authors: Dylan Zhang, Curt Tigges, Zory Zhang, Stella Biderman, Maxim Raginsky, Talia Ringer
Abstract要約: 本稿では,プログラミング言語領域における構造的再帰という抽象概念を,シーケンスモデリング問題や学習モデルの振る舞いにうまく結合する汎用フレームワークを提案する。フレームワークを強力な概念ツールとして、さまざまな設定の下で異なる問題を特定します。
参考スコア（独自算出の注目度）: 14.739369424331478
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper investigates the ability of transformer-based models to learn structural recursion from examples. Recursion is a universal concept in both natural and formal languages. Structural recursion is central to the programming language and formal mathematics tasks where symbolic tools currently excel beyond neural models, such as inferring semantic relations between datatypes and emulating program behavior. We introduce a general framework that nicely connects the abstract concepts of structural recursion in the programming language domain to concrete sequence modeling problems and learned models' behavior. The framework includes a representation that captures the general \textit{syntax} of structural recursion, coupled with two different frameworks for understanding their \textit{semantics} -- one that is more natural from a programming languages perspective and one that helps bridge that perspective with a mechanistic understanding of the underlying transformer architecture. With our framework as a powerful conceptual tool, we identify different issues under various set-ups. The models trained to emulate recursive computations cannot fully capture the recursion yet instead fit short-cut algorithms and thus cannot solve certain edge cases that are under-represented in the training distribution. In addition, it is difficult for state-of-the-art large language models (LLMs) to mine recursive rules from in-context demonstrations. Meanwhile, these LLMs fail in interesting ways when emulating reduction (step-wise computation) of the recursive function.
Abstract（参考訳）: 本稿では, 変圧器モデルを用いた構造再帰学習の事例から検討する。再帰は自然言語と形式言語の両方において普遍的な概念である。構造的再帰はプログラミング言語や形式数学のタスクの中心であり、記号的ツールは現在、データ型間の意味的関係の推測やプログラムの振る舞いのエミュレートなど、ニューラルモデルを超えて優れている。本稿では,プログラミング言語領域における構造再帰の抽象概念を,具体的なシーケンスモデリング問題や学習モデルの振る舞いにうまく結びつける汎用フレームワークを提案する。このフレームワークには、構造再帰の一般的な \textit{syntax} をキャプチャする表現が含まれており、それらの \textit{semantics} を理解するための2つの異なるフレームワークと結合されている。フレームワークを強力な概念ツールとして、さまざまな設定の下で異なる問題を特定します。再帰的計算をエミュレートするために訓練されたモデルは、再帰を完全に捉えることができず、代わりにショートカットアルゴリズムに適合するので、トレーニング分布で表現されていない特定のエッジケースを解決できない。さらに,現在最先端の大規模言語モデル (LLM) では,コンテキスト内デモから再帰的なルールを抽出することは困難である。一方、これらのLSMは再帰関数の還元(ステップワイズ計算)をエミュレートする際に興味深い方法で失敗する。

関連論文リスト

A New Graph Grammar Formalism for Robust Syntactic Pattern Recognition [0.0]
従来のグラフ文法のように生産規則を使用しないが、より直接的かつ宣言的な方法で構文構造を表現する。文法とパターンはともにネットワークとして表現され、解析はパターンから文法への準同型の構成と見なされる。
論文参考訳（メタデータ） (2025-04-22T15:23:37Z)
Generative Models as a Complex Systems Science: How can we make sense of large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文参考訳（メタデータ） (2023-07-31T22:58:41Z)
A Recursive Bateson-Inspired Model for the Generation of Semantic Formal Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文参考訳（メタデータ） (2023-07-16T15:59:13Z)
Can Transformers Learn to Solve Problems Recursively? [9.5623664764386]
本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
論文参考訳（メタデータ） (2023-05-24T04:08:37Z)
Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文参考訳（メタデータ） (2023-05-23T04:28:16Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)
Folding over Neural Networks [1.7818230914983044]
本稿では、構造的再帰がHaskellにおけるニューラルネットワークの表現にどのように役立つかを示す。そこで我々は,ニューラルネットワークのコヒーレントな実装を推進し,その構造とセマンティクスを規定する。
論文参考訳（メタデータ） (2022-07-03T18:20:05Z)
Recursive Reinforcement Learning [4.429642479975602]
再帰は、潜在的無限のオブジェクトを有限に記述する基本的なパラダイムである。我々はマルコフ決定プロセスの集合として記述された環境における最適ポリシーを計算できるRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-06-23T00:29:42Z)
Learning Algebraic Recombination for Compositional Generalization [71.78771157219428]
合成一般化のための代数的組換え学習のためのエンドツーエンドニューラルモデルLeARを提案する。主要な洞察は、意味解析タスクを潜在構文代数学と意味代数学の間の準同型としてモデル化することである。 2つの現実的・包括的構成一般化の実験は、我々のモデルの有効性を実証している。
論文参考訳（メタデータ） (2021-07-14T07:23:46Z)
R2D2: Recursive Transformer based on Differentiable Tree for Interpretable Hierarchical Language Modeling [36.61173494449218]
本稿では, 構成過程をエミュレートするために, 微分可能なCKYスタイルのバイナリツリーに基づくモデルを提案する。我々は、このアーキテクチャに対して双方向言語モデル事前学習の目的を拡張し、左右の抽象ノードを与えられた各単語を予測しようと試みる。また,本手法を大規模化するために,合成ステップの線形数だけを符号化する効率的な伐採木誘導アルゴリズムを導入する。
論文参考訳（メタデータ） (2021-07-02T11:00:46Z)
Text Modular Networks: Learning to Decompose Tasks in the Language of Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文参考訳（メタデータ） (2020-09-01T23:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。