論文の概要: Transformers Pretrained on Procedural Data Contain Modular Structures for Algorithmic Reasoning
- arxiv url: http://arxiv.org/abs/2505.22308v1
- Date: Wed, 28 May 2025 12:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.60336
- Title: Transformers Pretrained on Procedural Data Contain Modular Structures for Algorithmic Reasoning
- Title(参考訳): アルゴリズム推論のためのモジュール構造を含む手続きデータに基づくトランスフォーマー
- Authors: Zachary Shinnick, Liangze Jiang, Hemanth Saratchandran, Anton van den Hengel, Damien Teney,
- Abstract要約: 我々は,小型変圧器の改良にともなう,特定のアルゴリズム推論スキルとともに,手続きデータに有用ないくつかの形式を同定する。
我々の中核となる発見は、異なる手続き規則がモデルにおいて異なるが相補的な帰納的構造を具現化することである。
最も興味深いのは、複数の規則によって誘導される構造は、複数の能力を共同で付与するために構成することができることである。
- 参考スコア(独自算出の注目度): 40.84344912259233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining on large, semantically rich datasets is key for developing language models. Surprisingly, recent studies have shown that even synthetic data, generated procedurally through simple semantic-free algorithms, can yield some of the same benefits as natural language pretraining. It is unclear what specific capabilities such simple synthetic data instils in a model, where these capabilities reside in the architecture, and how they manifest within its weights. In this short paper, we identify several beneficial forms of procedural data, together with specific algorithmic reasoning skills that improve in small transformers. Our core finding is that different procedural rules instil distinct but complementary inductive structures in the model. With extensive ablations and partial-transfer experiments, we discover that these structures reside in different parts of the model. Attention layers often carry the most transferable information, but some pretraining rules impart useful structure to MLP blocks instead. Most interestingly, the structures induced by multiple rules can be composed to jointly reinforce multiple capabilities. These results suggest an exciting possibility of disentangling the acquisition of knowledge from reasoning in language models, with the goal of improving their robustness and data efficiency.
- Abstract(参考訳): 大規模でセマンティックにリッチなデータセットでの事前トレーニングは、言語モデルを開発する上で重要である。
驚くべきことに、最近の研究では、単純な意味のないアルゴリズムによって手続き的に生成される合成データでさえ、自然言語の事前学習と同じ利点をもたらすことが示されている。
このような単純な合成データがモデルにどのような機能を組み込むのか、これらの機能はアーキテクチャ内にあるのか、その重みの中でどのように現れるのかは、はっきりしない。
本稿では,小型変圧器の改良を目的としたアルゴリズム推論技術とともに,手続きデータの有用な形態を複数同定する。
我々の中核となる発見は、異なる手続き規則がモデルにおいて異なるが相補的な帰納的構造を具現化することである。
広範囲なアブレーションと部分移動実験により、これらの構造がモデルの異なる部分に存在することが判明した。
注意層は、しばしば最も転送可能な情報を運ぶが、いくつかの事前学習ルールは、代わりにMLPブロックに有用な構造を与える。
最も興味深いのは、複数の規則によって誘導される構造は、複数の能力を共同で強化するために構成することができることである。
これらの結果は、言語モデルにおける推論から知識の獲得を遠ざける可能性を示し、その堅牢性とデータ効率を向上させることを目的としている。
関連論文リスト
- From Text to Graph: Leveraging Graph Neural Networks for Enhanced Explainability in NLP [3.864700176441583]
本研究では,自然言語処理タスクにおける説明可能性を実現するための新しい手法を提案する。
自動的に文をグラフに変換し、ノードや関係を通じて意味を維持する。
実験は、与えられた分類のためのテキスト構造の中で最も重要なコンポーネントを決定するための有望な結果をもたらした。
論文 参考訳(メタデータ) (2025-04-02T18:55:58Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Discrete Latent Structure in Neural Networks [32.41642110537956]
このテキストは、離散的な潜在構造を持つ学習のための3つの広義の戦略を探求する。
たいていは、同じ基本ブロックの小さなセットで構成されているが、それらが異なる使い方をしており、適用性や特性が著しく異なることを示している。
論文 参考訳(メタデータ) (2023-01-18T12:30:44Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - TAGPRIME: A Unified Framework for Relational Structure Extraction [71.88926365652034]
TAGPRIMEは、与えられた条件に関する情報を入力テキストに追加するシーケンスタグ付けモデルである。
事前学習された言語モデルにおける自己認識機構により、プライミングワードは、出力された文脈化された表現に、与えられた条件に関するより多くの情報を含む。
5つの異なる言語にまたがる10のデータセットをカバーする3つのタスクに関する大規模な実験と分析は、TAGPRIMEの汎用性と有効性を示している。
論文 参考訳(メタデータ) (2022-05-25T08:57:46Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。