論文の概要: Discovering Interpretable Algorithms by Decompiling Transformers to RASP
- arxiv url: http://arxiv.org/abs/2602.08857v1
- Date: Mon, 09 Feb 2026 16:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.35355
- Title: Discovering Interpretable Algorithms by Decompiling Transformers to RASP
- Title(参考訳): RASPへの変換器の逆コンパイルによる解釈可能なアルゴリズムの発見
- Authors: Xinting Huang, Aleksandra Bakalova, Satwik Bhattamishra, William Merrill, Michael Hahn,
- Abstract要約: 最近の研究は、トランスフォーマーの計算がプログラミング言語のRASPファミリでシミュレート可能であることを示している。
訓練されたトランスフォーマーから簡単な解釈可能なプログラムを抽出する一般的な方法を提案する。
以上の結果から,トランスフォーマーがシンプルなRASPプログラムを内部的に実装しているという最も直接的な証拠が得られている。
- 参考スコア(独自算出の注目度): 58.057999683173655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that the computations of Transformers can be simulated in the RASP family of programming languages. These findings have enabled improved understanding of the expressive capacity and generalization abilities of Transformers. In particular, Transformers have been suggested to length-generalize exactly on problems that have simple RASP programs. However, it remains open whether trained models actually implement simple interpretable programs. In this paper, we present a general method to extract such programs from trained Transformers. The idea is to faithfully re-parameterize a Transformer as a RASP program and then apply causal interventions to discover a small sufficient sub-program. In experiments on small Transformers trained on algorithmic and formal language tasks, we show that our method often recovers simple and interpretable RASP programs from length-generalizing transformers. Our results provide the most direct evidence so far that Transformers internally implement simple RASP programs.
- Abstract(参考訳): 最近の研究は、トランスフォーマーの計算がプログラミング言語のRASPファミリでシミュレート可能であることを示している。
これらの結果から,トランスフォーマーの表現能力と一般化能力の理解が向上した。
特に、トランスフォーマーは、単純なRASPプログラムを持つ問題に対して、正確に長大に一般化することが提案されている。
しかし、訓練されたモデルが実際に単純な解釈可能なプログラムを実装しているかどうかは不明だ。
本稿では,訓練されたトランスフォーマーからこのようなプログラムを抽出する一般的な方法を提案する。
その考え方は、TransformerをRASPプログラムとして忠実に再パラメータ化し、因果的介入を適用して、小さなサブプログラムを見つけることである。
アルゴリズム的および形式的な言語タスクを訓練した小型変換器の実験において,提案手法は長大化変換器から単純かつ解釈可能な RASP プログラムを復元する。
以上の結果から,トランスフォーマーがシンプルなRASPプログラムを内部的に実装しているという最も直接的な証拠が得られている。
関連論文リスト
- AlgoFormer: An Efficient Transformer Framework with Algorithmic Structures [80.28359222380733]
アルゴリズム機能を備えたトランスフォーマーを実現するために,AlgoFormerと呼ばれる新しいトランスフォーマーフレームワークを設計する。
特に、人間の設計した学習アルゴリズムの構造に触発されて、我々のトランスフォーマーフレームワークは、タスク前処理に責任を持つ事前変換器で構成されています。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーがアルゴリズム表現と学習を行う可能性があることを示すために提示される。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。
人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。
Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文 参考訳(メタデータ) (2023-06-01T20:27:01Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。